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统计 学 习 是 计算 机 及 其 应 用 领域 的 一 门 重要 的 学 科 。 本 书 全 面 系统 
地 介绍 了 统计 学 习 的 主要 方法 ， 特 别 是 监督 学 习 方法 ， 包 括 感 知 机 、k 
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手 ， 由 浅 入 深 ， 冰 明 思路 ， 给 出 必要 的 数学 推导 ， 便 于 读者 掌握 统计 学 
习 方 法 的 实质 ， 学 会 运用 。 为 满足 读者 进一步 学 习 的 需要 ， 书 中 还 介绍 
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计算 机 与 网 络 已 融入 到 了 人 们 的 日 常 学 习 、 工 作 和 生活 之 中 ， 成 为 
人 们 不 可 或 缺 的 助手 和 伙伴 。 计 算 机 与 网 络 的 飞速 发 展 完全 改变 了 人 们 
的 学 习 、 工 作 和 生活 方式 。 智 能 化 是 计算 机 研究 与 开发 的 一 个 主要 目 
标 。 近 几 十 年 来 的 实践 表明 ， 统 计 机 器 学 习 方法 是 实现 这 一 目标 的 最 有 
效 手 段 ， 尽 管 它 还 存在 着 一 定 的 局 限 性 。 

作者 一 直 从 事 利 用 统计 学 习 方法 对 文本 数据 进行 各 种 智能 性 处 理 的 
研究 ， 包 括 目 然 语言 处 理 、 信 息 检 索 、 文 本 数据 挖掘 。 近 20 年 来 ， 这 些 
领域 友 展 之 快 ， 应 用 之 广 ， 实 在 令 人 惊叹 ! 可 以 次 ， 统 计 机 器 学 习 是 这 
些 领 域 的 核心 技术 ， 在 这 些 领 域 的 发 展 及 应 用 中 起 着 决定 性 的 作用 。 

作者 在 日 第 的 研究 工作 中 经 常 指 导 学 生 ， 并 在 国内 外 一 些 大 学 及 讲 
习 班 上 多 次 做 过 关于 统计 学 习 的 报告 和 演讲 。 在 这 一 过 程 中 ， 同 学 们 学 
习 热 情 很 局 ， 和 希望 得 到 指导 ， 这 使 作者 产生 了 撰写 本 书 的 想法 。 

国内 外 已 出 版 了 多 本 关于 统计 机 器 学 习 的 书籍 ， 比 如 ，Hastie 等 人 
的 《统计 学 习 基 础 》。 该 书 对 统计 学 习 的 诸多 问题 有 非常 精辟 的 论述 ， 
但 对 初学 者 来 说 显得 有 些 深奥 。 统 计 学 习 范 围 其 广 ， 一 两 本 书 很 难 禾苗 
所 有 问题 。 本 书 主要 是 面向 将 统计 学 习 方 法 作为 工具 的 科研 人 员 与 学 
生 ， 特 别 是 从 事 信息 检索 、 目 然 语 言 处 理 、 文 本 数据 挖掘 及 相关 领域 的 
研究 与 开发 的 科研 人 员 与 学 生 。 

本 书 力求 系统 而 详细 地 介绍 统计 学习 的 方法 。 在 内 容 选 取 上 ， 侧 重 
介绍 那些 最 重要 、 最 第 用 的 方法 ， 特 别 是 关于 分 类 与 标注 问题 的 方法 。 
对 其 他 问题 及 方法 ， 如 聚 类 等 ， 计 划 在 今后 的 写作 中 再 加 以 介绍 。 在 叙 
述 方式 上 ， 每 一 章 讲 述 一 种 方法 ， 各 章 内 容 相对 独立 、 完 整 ， 同 时 力图 
用 统一 框架 来 论述 所 有 方法 ， 使 全 书 整体 不 失 系统 性 。 读 者 可 以 从 头 到 
尾 通读 ， 也 可 以 选择 单个 章节 细 读 。 对 每 一 方法 的 讲述 力求 深入 浅 出 ， 
给 出 必要 的 推导 证 明 ， 提 供 简单 的 实例 ， 使 初学 者 易于 掌握 方法 的 基本 
内 容 ， 领 会 方法 的 本 质 ， 并 准确 地 使 用 方法 。 对 相关 的 深层 理论 ， 则 仅 
予以 简 述 。 在 每 章 后 面 ， 给 出 一 些 习 题 ， 介 绍 一 些 相 关 的 研究 动向 和 阅 
读 材 料 ， 列 出 参考 文献 ， 以 满足 读者 进一步 学 习 的 需求 。 本 书 第 1 章 简 
要 拆 述 统计 学 习 方 法 的 基本 概念 ， 最 后 一 章 对 统计 和 学习 方法 进行 比较 与 
总 结 。 此 外 ， 在 附录 中 简要 介绍 一 些 共 用 的 最 优化 理论 与 方法 。 

本 书 可 以 作为 统计 机 器 学 习 及 相关 谍 程 的 教学 参考 书 ， 适 用 于 信息 
检索 及 目 然 语言 处 理 等 专业 的 大 学 生 、 研 究 生 。 
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第 1 章 ”统计 学 习 方 法 概论 


本 章 简 要 叙述 统计 学 习 方 法 的 一 些 基本 概念 。 这 是 对 全 书 内 容 的 概 
括 ， 也 是 全 书 内 容 的 基础 。 首 先 投 述 统计 学 习 的 定义 、 研 究 对 象 与 方 
法 ;然后 叙述 监督 学 习 ， 这 是 本 书 的 主要 内 容 ; 接着 提出 统计 学 习 方 法 
的 三 要 素 : 模型 、 策 略 和 算法 ;介绍 模型 选择 ， 包 括 正 则 化 、 交 叉 验证 
与 学 习 的 这 化 能 力 ， 介 绍 生成 模型 与 判别 模型 ， 最 后 介绍 监督 学 习 方 法 
的 应 用 : 分 类 问题 、 标 注 问题 与 回归 问题 。 


1.1 统计 和 学习 
1. 统计 学 习 的 特点 


统计 学 习 (statistical ”learning)〉 是 关于 计算 机 基于 数据 构建 概率 统 
计 模 型 并 运用 模型 对 数据 进行 预测 与 分 析 的 一 门 学 科 。 统 计 学 习 也 称 为 
统计 机 器 学 习 (statistical machine learning) 。 

统计 学 习 的 主要 特点 是 : (1) 统计 学 习 以 计算 机 及 网 络 为 平台 ， 
是 建立 在 计算 机 及 网 络 之 上 的 ; (2) 统计 学 习 以 数 据 为 研究 对 象 ， 是 
数据 驱动 的 学 科 ; (3) 统计 学 习 的 目的 是 对 数据 进行 预测 与 分 析 ; 
(4) 统计 学 习 以 方法 为 中 心 ， 统 计 学 习 方法 构建 模型 并 应 用 模型 进行 
预测 与 分 析 ; (5) 统计 学 习 是 概率 论 、 统 计 学 、 信 息 论 、 计 算 理 论 、 
最 优化 理论 及 计算 机 科学 等 多 个 领域 的 交叉 学 科 ， 并 且 在 发 展 中 逐步 形 
成 独 目的 理论 体系 与 方法 论 。 

赫 尔 伯 特 :西蒙 (Herbert A. Simon〉 曾 对 “学 习 ” 给 出 以 下 定义 :“ 如 
果 一 个 系统 能 够 通过 执行 某 个 过 程 改 进 它 的 性 能 ， 这 就 是 学 习 。?” 按 照 
这 一 观点 ， 统 计 学 习 就 是 计算 机 系统 通过 运用 数据 及 统计 方法 提高 系统 
性 能 的 机 器 学 习 。 现 在 ， 当 人 们 提 及 机 器 学 习 时 ， 往 往 是 指 统计 机 器 学 
Sis 


2. 统计 学 习 的 对 象 
统计 学 习 的 对 象 是 数据 〈data) 。 它 从 数据 出 发 ， 提 取 数 据 的 特 


征 ， 抽 象 出 数据 的 模型 ， 发 现 数据 中 的 知识 ， 又 回 到 对 数据 的 分 析 与 预 
汕 中 去 。 作 为 统计 学 习 的 对 象 ， 数 据 是 多 样 的 ， 包 括 存在 于 计算 机 及 网 














络 上 的 各 种 数字 、 文 字 、 图 像 、 视 频 、 音 频数 据 以 及 它们 的 组 合 。 

统计 学 习 关 于 数据 的 基本 假设 是 同类 数据 具有 一 定 的 统计 规律 性 ， 
这 是 统计 学 习 的 前 提 。 这 里 的 同类 数据 是 指 具有 茶 种 共同 性 质 的 数据 ， 
例如 英文 文章 、 互 联网 网 页 、 数 据 库 中 的 数据 等 。 由 于 它们 具有 统计 规 
律 性 ， 所 以 可 以 用 概率 统计 方法 来 加 以 处 理 。 比 如 ， 可 以 用 随机 变量 描 
述 数 据 中 的 特征 ， 用 概率 分 布 描述 数据 的 统计 规律 。 

在 统计 学 习 过 程 中 ， 以 变量 或 变量 组 表示 数据 。 数 据 分 为 由 连续 变 
量 和 离散 变量 表示 的 类 型 。 本 书 以 讨论 离散 变量 的 方法 为 主 。 忆 外 ， 本 
书 只 涉及 利用 数据 构建 模型 及 利用 模型 对 数据 进行 分 析 与 预测 ， 对 数据 
的 观测 和 收集 等 问题 不 作 讨论 。 


3. 统计 学 习 的 目的 


统计 学 习 用 于 对 数据 进行 预测 与 分 机 ， 特 别 是 对 未 知 新 数据 进行 预 
测 与 分 析 。 对 数据 的 预测 可 以 使 计算 机 更 加 智能 化 ， 或 者 说 使 计算 机 的 
某 些 性 能 得 到 提高 ， 对 数据 的 分 析 可 以 让 人 们 获取 新 的 知识 ， 给 和 人们 带 
来 新 的 发 现 。 

对 数据 的 预测 与 分 析 是 通过 构建 概率 统计 模型 实现 的 。 统 计 学 习 总 
的 目标 就 是 考虑 学 习 什 么 样 的 模型 和 如 何 学 习 模 型 ， 以 使 模型 能 对 数据 
进行 准确 的 预测 与 分 机 ， 同 时 也 要 考 碟 尽 可 能 地 提高 学 习 效率 。 


4. 统计 学 习 的 方法 
统计 学 习 的 方法 是 基于 数据 构建 统计 模型 从 而 对 数据 进行 预测 与 分 


析 。 统 计 学 习 由 监督 学 习 (supervised learning) 、 非 监督 学 习 
Cunsupervised learning) 、 半 监督 学 习 (semi-supervised learing) 和 强 
化 学 习 (reinforcement learning) 等 组 成 。 

本 书 主要 讨论 监督 学 习 ， 这 种 情况 下 统计 学 习 的 方法 可 以 概括 如 
下 : 从 给 定 的 、 有 限 的 、 用 于 学 习 的 训练 数据 (training ”data) 集合 出 
发 ， 假 设 数 据 是 独立 同 分 布 产生 的 ;并且 假设 要 学 习 的 模型 属于 某 个 孙 
数 的 集合 ， 称 为 假设 空间 (hypothesis space) ; 应 用 某 个 评价 准则 
Cevaluation criterion) ， 从 假设 空间 中 选取 一 个 最 优 的 模型 ， 使 它 对 已 
知 训练 数据 及 未 知 测试 数据 (test _ data) 在 给 定 的 评价 准则 下 有 最 优 的 
预测 ， 最 优 模型 的 选取 由 算法 实现 。 这 样 ， 统 计 学 习 方 法 包括 模型 的 假 
设 空间 、 模 型 选择 的 准则 以 及 模型 学 习 的 算法 ， 称 其 为 统计 学 习 方法 的 
三 要 素 ， 简 称 为 模型 (model) 、 策 略 〈strategy) 和 算法 
Calgorithm ) 。 

实现 统计 学 习 方 法 的 步骤 如 下 : 






































(1) 得 到 一 个 有 限 的 训练 数据 集合 ; 

(2) 确定 包含 所 有 可 能 的 模型 的 假设 空间 ， 即 学 习 模型 的 集合 ; 

(3) 确定 模型 选择 的 准则 ， 即 学 习 的 策略 ; 

(4) 实现 求解 最 优 模型 的 算法 ， 即 学 习 的 算法 ; 

(5) 通过 学 习 方 法 选择 最 优 模型 ， 

(6) 利用 学 习 的 最 优 模型 对 新 数据 进行 预测 或 分 析 。 

本 书 以 介绍 统计 学 习 方 法 为 主 ， 特 别 是 监督 学 习 方 法 ， 主 要 包括 用 
于 分 类 、 标 注 与 回归 问题 的 方法 。 这 些 方法 在 自然 语言 处 理 、 信 息 检 
索 、 文 本 数据 挖掘 等 领域 中 有 着 极其 广泛 的 应 用 。 


5. 统计 学 习 的 研究 


统计 学 习 研 究 一 般 包 括 统 计 学 习 方 法 (statistical learning 
method) 、 统 计 学 习 理 论 (statistical learning theory) 及 统计 学 习 应 用 
(application of statistical learning〉 三 个 方面 。 统 计 学 习 方法 的 研究 则 在 
开发 新 的 学 习 方 法 ; 统计 学 习 理 论 的 研究 在 于 探求 统计 学 习 方 法 的 有 效 
性 与 效率 ， 以 及 统计 学 习 的 基本 理论 问题 ;统计 学 习 应 用 的 研究 主要 考 
虑 将 统计 学 习 方法 应 用 到 实际 问题 中 去 ， 解 决 实际 问题 。 


6. 统计 学 习 的 重要 性 


近 20 年 来 ， 统 计 学 习 无 论 是 在 理论 还 是 在 应 用 方面 都 得 到 了 巨大 的 
发 展 ， 有 许多 重大 突破 ， 统 计 学 习 已 被 成 功 地 应 用 到 人 工 智能 、 模 式 识 
别 、 数 据 挖掘 、 上 自然 语言 处 理 、 语 音 识别 、 图 像 识 别 、 信 息 检 索 和 生物 
信息 等 许多 计算 机 应 用 领域 中 ， 并 且 成 为 这 些 领域 的 核心 技术 。 人 们 确 
人 


统计 学 习 学 科 在 科学 技术 中 的 重要 性 主要 体现 在 以 下 几 个 方面 : 

(1) 统计 学 习 是 处 理 海量 数据 的 有 效 方法 。 我 们 处 于 一 个 信息 爆 
炸 的 时 代 ， 海 量 数据 的 处 理 与 利用 是 人 们 必然 的 需求 。 现 实 中 的 数据 不 
但 规模 大 ， 而 且 常 常 具有 不 确定 性 ， 统 计 学 习 往往 是 处 理 这 类 数据 最 强 
有 力 的 工具 。 

(2) 统计 学 习 是 计算 机 智能 化 的 有 效 手段 。 乔 能 化 是 计算 机 发 展 
的 必然 趋势 ， 也 是 计算 机 技术 研究 与 开发 的 主要 目标 。 近 几 十 年 来 ， 人 
工 智能 等 领域 的 研究 表明 ， 利 用 统计 学 习 模仿 人 类 智能 的 方法 ， 昌 有 一 
定 的 局 限 性 ， 但 仍然 是 实现 这 一 目标 的 最 有 效 手段 。 

(3) 统计 学 习 是 计算 机 科学 发 展 的 一 个 重要 组 成 部 分 。 可 以 认为 
计算 机 科学 由 三 维 组 成 : 系统 、 计 算 、 信 息 。 统 计 学 习 主 要 属于 信息 这 





















































一 维 ， 并 在 其 中 起 着 核心 作用 。 
1.2 监督 学 习 


统计 学 习 包括 监督 学 习 、 非 监督 学 习 、 半 监督 学 习 及 强化 学 习 。 本 
书 主要 讨论 监督 学 习 问 题 。 

监督 学 习 (supervised leaming) 的 任务 是 学 习 一 个 模型 ， 使 模型 能 
够 对 任意 给 定 的 输入 ， 对 其 相应 的 输出 做 出 一 个 好 的 预测 (注意 ， 这 里 
的 输入 、 输 出 是 指 某 个 系统 的 输入 与 输出 ， 与 学 习 的 输入 与 输出 不 
同 ) 。 计 算 机 的 基本 操作 就 是 给 定 一 个 输入 产生 一 个 输出 ， 所 以 监督 学 
ii 
泛 的 部 分 。 














1.2.1 基本 概念 
1， 输 入 空间 、 特 征 空间 与 输出 空间 


在 监督 学 习 中 ， 将 输入 与 输出 所 有 可 能 取 值 的 集合 分 别称 为 输入 空 
间 (input space) 与 输出 空间 (output space) 。 输 入 与 输出 空间 可 以 是 
有 限 元 素 的 集合 ， 也 可 以 是 整个 欧 氏 空间 。 输 入 空间 与 输出 空间 可 以 是 
同一 个 空间 ， 也 可 以 是 不 同 的 空间 ; 但 通常 输出 空间 远 远 小 于 输入 空 
间 。 

每 个 具体 的 输入 是 一 个 实例 〈instance) ， 通 常 由 特征 向 量 (feature 
vector) 表示 。 这 时 ， 所 有 特征 同 量 存在 的 空间 称 为 特征 空间 (feature 
space) 。 特 征 空 间 的 每 一 维 对 应 于 一 个 特征 。 有 时 假设 输入 空间 与 特 
征 空 间 为 相同 的 空间 ， 对 它们 不 予 区 分 有 时 假设 输入 空间 与 特征 空间 
为 不 同 的 空间 ， 将 实例 从 输入 空间 映射 到 特征 空间 。 模 型 实际 上 都 是 定 
义 在 特征 空间 上 的 。 

在 监督 学 习 过 程 中 ， 将 输入 与 输出 看 作 是 定义 在 输入 《特征 ) 空间 
与 输出 空间 上 的 随机 变量 的 取 值 。 输 入 、 输 出 变量 用 大 写字 母 表 示 ， 习 
惯 上 输入 变量 写作 X， 输 出 变量 写作 Y。 输 入 、 输 出 变量 所 取 的 值 用 小 
写字 母 表 示 ， 输 入 变量 的 取 值 写作 x， 输 出 变量 的 取 值 写作 y。 变 量 可 以 
是 标量 或 辐 量 ， 都 用 相同 类 型 字母 表示 。 除 特别 声明 外 ， 本 书 中 辣 量 均 
为 列 回 量 ， 输 入 实例 x 的 特征 问 量 记 作 


和 


xo 表 示 x 的 第 i 个 特征 。 注 意 ，xo 与 x 不 同 ， 本 书 通常 用 x 表 示 多 个 输入 变 



































量 中 的 第 个 ， 即 
和 = i 

监督 学 习 从 训练 数据 (training data) 集合 中 学 习 模 型 ， 对 测试 数据 
(test data) 进行 预测 。 训 练 数 据 由 输入 或 特征 疝 量 ) 与 输出 对 组 
成 ， 训 练 集 通 常 表 示 为 

LT =X (N 

测试 数据 也 由 相应 的 输入 与 输出 对 组 成 。 输 入 与 输出 对 又 称 为 样本 
(sample) 或 样本 点 

输入 变量 X 和 输出 变量 Y 有 不 同 的 类 型 ， 可 以 是 连续 的 ， 也 可 以 是 
离散 的 。 人 们 根据 输入 、 输 出 变量 的 不 同类 型 ， 对 预测 任务 给 予 不 同 的 
名 称 : 输入 变量 与 输出 变量 均 为 连续 变量 的 预测 问题 称 为 回归 问题 ， 输 
出 变量 为 有 限 个 离散 变量 的 预测 问题 称 为 分 类 问题 ; 输入 变量 与 输出 变 
量 均 为 变量 序列 的 预测 问题 称 为 标注 问题 。 


2. 联合 概率 分 布 


监督 学 习 假设 输入 与 输出 的 随机 变量 X 和 Y 遵 循 联合 概率 分 布 
P(X,Y)。P(X,Y) 表 示 分 布 函 数 ， 或 分 布 密度 函数 。 注 意 ， 在 学 习 过 程 
中 ， 假 定 这 一 联合 概率 分 布 存 在 ， 但 对 学 习 系 统 来 说 ， 联 合 概 率 分 布 的 
具体 定义 是 未 知 的 。 训 练 数据 与 测试 数据 被 看 作 是 依 联 合 概率 分 布 
P(X,Y) 独 立 同 分 布 产生 的 。 统 计 学 习 假设 数据 存在 一 定 的 统计 规律 ，X 
和 Y 有 具有 联合 概率 分 布 的 假设 就 是 监督 学 习 关 于 数据 的 基本 假设 。 


3. 假设 空间 


监督 学 习 的 目的 在 于 学 习 一 个 由 输入 到 输出 的 映射 ， 这 一 映射 由 模 
型 来 表示 。 换 句 话 次 ， 学 习 的 目的 就 在 于 找到 最 好 的 这 样 的 模型 。 模 型 
属于 由 输入 空间 到 输出 空 2 间 的 映 潮 的 集合 ， 这 个 集合 融 是 假设 空间 

(hypothesis space) 。 假 设 空间 的 确定 意味 着 学 习 范 围 的 确定 。 

监督 学 习 的 模型 可 以 是 概率 模型 或 非 概率 模型 ， 由 条 件 概率 分 布 
P(Y|X) 或 决策 函数 〈decision function) Y=f(X) 表 示 ， 随 具体 学 习 方法 而 
定 。 对 具体 的 输入 进行 相应 的 输出 预测 时 ， 写 作 P(y|x) 或 Y=f(x)。 


1.2.2 问题 的 形式 化 
监督 学 习 利用 训练 数据 集 学 习 一 个 模型 ， 再 用 模型 对 测试 样本 集 进 



































行 预测 (prediction〉。 由 于 在 这 个 过 程 中 需要 训练 数据 集 ， 而 训练 数据 
集 往往 是 人 工 给 出 的 ， 所 以 称 为 监督 学 习 。 监 督学 习 分 为 学 习 和 预测 两 
个 过 程 ， 由 学 习 系 统 与 预测 系统 完成 ， 可 用 图 1.1 来 描述 。 


(x | (xy> jy “(XY N ) 





XN +】 


图 1.1 监督 学 习 问 题 


首先 给 定 一 个 训练 数据 集 
T = 信访 (7 (CC 
其 中 (x,y)，i 王 1,2,.…,N， 称 为 样本 或 样本 点 。xExSR'" 是 输入 的 观测 
值 ， 也 称 为 输入 或 实例 ，yeJy 是 输出 的 观测 值 ， 也 称 为 输出 。 

监督 学 习 中 ， 假 设 训练 数据 与 测试 数据 是 依 联 合 概率 分 布 PIX,Y) 独 
并 同 分 布 产 生 的 。 

在 学 习 过 程 中 ， 学 习 系 统 利用 给 定 的 训练 数据 集 ， 通 过 学 习 (或 训 
练 ) 得 到 一 个 模型 ， 表 示 为 条 件 概率 分 布 P(Y|X) 或 决策 函数 Y= 二/(X)。 
i i 
I 映射 关系 。 

在 预测 过 程 中 ， 预 测 系统 对 于 给 定 的 测试 样本 集中 的 输入 x,,,， 由 

yn = arg max Pl(y,,, 上 0 
模型 pn 或 y, 二 f(x,,) 给 出 相应 的 输出 y、,。 

在 学 习 过 程 中 ， 学 习 系 统 ( 也 就 是 学 习 算法 ) 试图 通过 训练 数据 集 
中 的 样本 (x，y) 带 来 的 信息 学 习 模 型 。 具 体 地 说 ， 对 输入 x， 一 个 具体 
的 模型 y 二 f(x) 可 以 产生 一 个 输出 f(x)， 而 训练 数据 集中 对 应 的 输出 是 
y， 如 果 这 个 模型 有 很 好 的 预测 能 力 ， 训 练 样本 输出 y 和 模型 输出 f(x) 之 
间 的 差 就 应 该 足够 小 。 学 习 系 统 通过 不 断 的 尝试 ， 选 取 最 好 的 模型 ， 以 
便 对 训练 数据 集 有 足够 好 的 预测 ， 同 时 对 未 知 的 测试 数据 集 的 预测 也 有 
尽 可 能 好 的 推广 。 














1.3 统计 学 习 三 要 系 


统计 学 习 方 法 都 是 由 模型 、 策 略 和 算法 构成 的 ， 即 统计 学 习 方 法 由 
三 要 素 构 成 ， 可 以 简单 地 表示 为 
方法 三 模型 十 策略 十 算法 
下 面 论述 监督 学 习 中 的 统计 学 习 三 要 素 。 非 监督 学 习 、 强 化 学 习 也 
同样 拥有 这 三 和 要素。 可 以 说 构建 一 种 统计 学 习 方 法 就 是 确定 具体 的 统计 


对 局 过 要 二 








1.3.1 模型 


统计 学 习 首 要 考虑 的 问题 是 学 习 什 么 样 的 模型 。 在 监督 学 习 过 程 
中 ， 模 型 就 是 所 要 学 习 的 条 件 概率 分 布 或 决策 函数 。 模 型 的 假设 空间 
(hypothesis space) 包含 所 有 可 能 的 条 件 概 率 分 布 或 决策 函数 。 例 如 ， 
假设 决策 函数 是 输入 变量 的 线性 函数 ， 那 么 模型 的 假设 空间 就 是 所 有 这 
些 线性 函数 构成 的 函数 集合 。 假 设 空间 中 的 模型 一 般 有 无 穷 多 个 。 

假设 空间 用 :天 表示 。 假 设 空间 可 以 定义 为 决策 函数 的 集合 

={/|Y=/(X)} (1.1) 
其 中 ，X 和 Y 是 定义 在 输入 空间 x 和 输出 空间 多 上 的 变量 。 这 时 .天 通常 是 
由 一 个 参数 回 量 决定 的 函数 族 : 

0 (1.2) 
参数 向 量 9 取 值 于 n 维 欧 氏 空间 R"， 称 为 参数 空间 (parameter space) 。 
假设 空间 也 可 以 定义 为 条 件 概率 的 集合 

={P|P(Y |X)} (1.3) 
其 中 ，X 和 Y 是 定义 在 输入 空间 x 和 输出 空间 了》 上 的 随机 变量 。 这 时 大通 
第 是 由 一 个 参数 回 量 决定 的 条 件 概 率 分 布 族 : 

r={PIBD(IY|A),GeR} (1.4) 
参数 向 量 C 取 值 于 n 维 欧 氏 空间 R*， 也 称 为 参数 空间 。 

本 书 中 称 由 决策 函数 表示 的 模型 为 非 概 率 模 型， 由 条 件 概率 表示 的 
0 0 











1.3.2 ”策略 


有 了 模型 的 假设 空间 ， 统 计 学 习 接 痢 需 要 考虑 的 是 按照 什么 样 的 准 
人 或 选择 最 优 的 模型 。 统 计 学 习 的 目标 在 于 从 假设 空间 中 选取 最 优 
异型 。 

首先 引入 损失 函数 与 风险 函数 的 概念 。 损 失 函 数 度 量 模型 一 次 预测 
的 好 坏 ， 风 险 函 数 度 量 平均 意义 下 模型 预测 的 好 坏 。 


1. 损失 函数 和 风险 函数 


监督 学 习 问 题 是 在 假设 空间 下 中 选 取 模 型 f 作 为 决策 函数 ， 对 于 给 
定 的 输入 X， 由 f(X) 给 出 相应 的 输出 Y， 这 个 输出 的 预测 值 {(X) 与 真实 值 
Y 可 能 一 致 也 可 能 不 一 致 ， 用 一 个 损失 函数 〈loss function) 或 代价 函数 

(cost function) 来 度量 预测 错误 的 程度 。 损 失 函 数 是 f{CX) 和 Y 的 非 负 实 
值 函 数 ， 记 作 L(CY,fCX))。 
统计 学 习 各 用 的 损失 函数 有 以 下 几 种 : 
(1) 0-1 损 失 函 数 (0-1 loss function ) 
FO #7 (1.5) 
类 天 辆 克 
(2) 平方 损失 函数 (quadratic loss function ) 
L(Y,f(X)=(Y-/f(X) (1.6) 
(3) 绝对 损失 函数 (absolute loss function ) 
L(Y,f(X))=|Y—f(X)| Gly) 
(4) 对 数 损失 函数 (logarithmic loss function) 或 对 数 似 然 损 失 函 
数 (loglikelihood loss function ) 
L(Y,P(Y|X))=-log P(Y |X) (1.8) 

损失 函数 值 越 小 ， 模 型 束 越 好 。 由 于 模型 的 输入 、 输 出 (X,Y) 是 

随机 变量 ， 遵 循 联合 分 布 P(X,Y)， 所 以 损失 函数 的 期 望 是 
Rf)= ELY, XN= | Lf0)P, ydrdy (1.9) 


这 是 理论 上 模型 f(X) 关 于 联合 分 布 P(X,Y) 的 平均 意义 下 的 损失 ， 称 为 风 
险 函 数 (risk function) 或 期 望 损失 (expected loss) 。 

学 习 的 目标 就 是 选择 期 望 风险 最 小 的 模型 。 由 于 联合 分 布 P(X,Y) 是 
未 知 的 ，R,(f) 不 能 直接 计算 。 实 际 上 ， 如 果 知 道 联 合 分 布 P(X,Y)， 可 以 
从 联合 分 布 直接 求 出 条 件 概 率 分 布 P(Y|X)， 也 就 不 需要 学 习 了 。 正 因为 
不 知道 联合 概率 分 布 ， 所 以 才 需 要 进行 学 习 。 这 样 一 来 ， 一 方面 根据 期 
望 风险 最 小 学 习 模型 要 用 到 联合 分 布 ， 另 一 方面 联合 分 布 又 是 未 知 的 ， 


























所 以 监督 学 习 就 成 为 一 个 病态 问题 (ill-formed problem ) 。 
给 定 一 个 训练 数据 集 
T ={(%, 0), (X73) (Xv, pn)} 
模型 f(xX) 关 于 训练 数据 集 的 平均 损失 称 为 经 验 风 险 (empirical ”risk) 或 
经 验 损失 (empirical loss )， 记 作 R,: 


We 
Raw (f)= HL) (1.10) 


期 望 风 险 R, (f) 是 模型 关于 联合 分 布 的 期 望 损 失 ， 经 验 风 险 R,,(f) 是 
模型 关于 训练 样本 集 的 平均 损失 。 根 据 大 数 定律 ， 当 样本 容量 N 趋 于 无 
穷 时 ， 经 验 风 险 R.( 趋 于 期 望 风险 R_(D。 所 以 一 个 很 自然 的 想法 是 用 
经 验 风 险 估计 期 望 风 险 。 但 是 ， 由 于 现实 中 训练 样本 数目 有 限 ， 甚 至 很 
小 ， 所 以 用 经 验 风 险 估计 期 望 风 险 常常 并 不 理想 ， 要 对 经 验 风 险 进 行 一 
定 的 矫正 。 这 就 关系 到 监督 学 习 的 两 个 基本 策略 : 经 验 风 险 最 小 化 和 结 
构 风 险 最 小 化 。 


2. 经 验 风 险 最 小 化 与 结构 风险 最 小 化 


在 假设 空间 、 损 失 函 数 以 及 训练 数据 集 确 定 的 情况 下 ， 经 验 风 险 函 
数 式 (1.10) 就 可 以 确定 。 经 验 风 险 最 小 化 (empirical risk 
minimization，ERM) 的 策略 认为 ， 经 验 风 险 最 小 的 模型 是 最 优 的 模 
型 。 根 据 这 一 策略 ， 按 照 经 验 风 险 最 小 化 求 最 优 模型 就 是 求解 最 优化 问 


题 : 











ee 
min Nf )) (1.11) 


其 中 ， 玉 是 假设 空间 。 

当 样 本 容量 足够 大 时 ， 经 验 风 险 最 小 化 能 保证 有 很 好 的 学 习 效果 ， 
在 现实 中 被 广泛 采用 。 比 如 ， 极 大 似 然 估 计 (maximum likelihood 
estimation ) 就 是 经 验 风险 最 小 化 的 一 个 例子 。 当 模型 是 条 件 概率 分 布 ， 
损失 函数 是 对 数 损失 函数 时 ， 经 验 风 险 最 小 化 束 等 价 于 极 大 似 然 估 计 。 

但 是 ， 当 样本 容量 很 小 时 ， 经 验 风 险 最 小 化 学 习 的 效果 就 未 必 很 
好 ， 会 产生 后 面 将 要 叙述 的 “过 拟 合 (over-fitting)” 现 象 。 

结构 风险 最 小 化 (structural risk minimization，SRM) 是 为 了 防止 
过 拟 合 而 提出 来 的 策略 。 结 构 风 险 最 小 化 等 价 于 正则 化 
Gregularization) 。 结 构 风 险 在 经 验 风 险 上 加 上 表示 模型 复杂 上 度 的 正则 
化 项 (regularizer) 或 罚 项 (penalty term) 。 在 假设 空间 、 损 失 函 数 以 




















及 训练 数据 集 确定 的 情况 下 ， 结 构 风 险 的 定义 是 
| 大 一 上 本 Ke | 
R= pp (x)+AT(F) CI, 1 


1 i=] 

其 中 J(f) 为 模型 的 复杂 度 ， 是 定义 在 假设 空间 玉 上 的 泛 函 。 模 型 f 越 复 
杂 ， 复 杂 度 J(f) 就 越 大 ， 反 之 ， 模 型 f 越 简单 ， 复 杂 度 J(f) 就 越 小 。 也 就 是 
说 ， 复 杂 度 表示 了 对 复杂 模型 的 惩 避 。4>0 是 系数 ， 用 以 权衡 经 验 风 险 
和 模型 复杂 度 。 结 构 风 险 小 需要 经 验 风 险 与 模型 复杂 度 同 时 小 。 结 构 风 
险 小 的 模型 往往 对 训练 数据 以 及 未 知 的 测试 数据 都 有 较 好 的 预测 。 

比如 ， 贝 叶 斯 估计 中 的 最 大 后 验 概率 估计 (maximum posterior 
probability estimation，MAP) 就 是 结构 风险 最 小 化 的 一 个 例子 。 当 模型 
是 条 件 概 率 分 布 、 损 失 函 数 是 对 数 损失 函数 、 模 型 复杂 上 度 由 模型 的 先 验 
概率 表示 时 ， 结 构 风 险 最 小 化 惑 等 价 于 最 大 后 验 概 率 估 计 。 

结构 风险 最 小 化 的 策略 认为 结构 风险 最 小 的 模型 是 最 优 的 模型 。 所 
以 求 最 优 模型 ， 就 是 求解 最 优化 问题 : 


min LO +AIN) (LL3) 
st IV i=1 

这 样 ， 监 督学 习 问 题 就 变 成 了 经 验 风险 或 结构 风险 函数 的 最 优化 问 
题 (1.11) 和 “(1.13) 。 这 时 经 验 或 结构 风险 函数 是 最 优化 的 目标 函 
数 。 




















1.3.3 ”算法 


算法 是 指 学 习 模 型 的 具体 计算 方法 。 统 计 学 习 基于 训练 数据 集 ， 根 
据 学 习 策 略 ， 从 假设 空间 中 选择 最 优 模 型 ， 最 后 需要 考虑 用 什么 样 的 计 
算 方 法 求解 最 优 模型 。 

这 时 ， 统 计 和 学 习 问 题 归结 为 最 优化 问题 ， 统 计 和 学 习 的 算法 成 为 求解 
最 优化 问题 的 算法 。 如 果 最 优化 问题 有 显 式 的 解析 解 ， 这 个 最 优化 问题 
就 比较 简单 。 但 通 钊 解析 解 不 存在 ， 这 就 需要 用 数值 计算 的 方法 求解 。 
如 何 保证 找到 全 局 最 优 解 ， 并 使 求解 的 过 程 非常 高 效 ， 就 成 为 一 个 重要 
On 
化 笛 法 ， 

统计 学 习 方 法 之 间 的 不 同 ， 主 要 来 自 其 模型 、 策 略 、 算 法 的 不 同 。 
确定 了 模型 、 策 略 、 算 法 ， 统 计 学 习 的 方法 也 就 确定 了 。 这 也 就 是 将 其 
称 为 统计 学 习 三 要 素 的 原因 。 














1.4 模型 评估 与 模型 选择 
1.4.1 训练 误差 与 测试 误差 


统计 学 习 的 目的 是 使 学 到 的 模型 不 仅 对 已 知 数据 而 且 对 未 知 数据 都 
能 有 很 好 的 预测 能 力 。 不 同 的 学 习 方 法 会 给 出 不 同 的 模型 。 当 损失 函数 
给 定时 ， 基 于 损失 函数 的 模型 的 训练 误 着 〈training ”error) 和 模型 的 测 
试 误 兰 〈test error) 就 自然 成 为 学 习 方 法 评估 的 标准 。 注 意 ， 统 计 学 习 
方法 具体 采用 的 损失 函数 未 必 是 评估 时 使 用 的 损失 函数 。 当 然 ， 让 两 者 
一 致 是 比较 理想 的 。 _ 

假设 学 习 到 的 模型 是 Y=f(X)， 训 练 误差 是 模型 Y=f(X) 关 于 训练 数 
据 集 的 平均 损失 : 


x s 、 
Rowf)= 2 Lf) (1.14) 


其 中 NN 是 训练 样本 容量 。 
测试 误差 是 模型 Y=f(X) 关 于 测试 数据 集 的 平均 损失 : 
过 
ee = 2 Lf)) (1.15) 
i i=] 
其 中 N' 是 测试 样本 容量 。 
例如 ， 当 损失 函数 是 0-1 损 失 时 ， 测 试 误差 就 变 成 了 常见 的 测试 数 
据 集 上 的 误差 率 (error rate ) 
= > 1(y, # f(x)) (1.16) 
1 上 =] 


这 里 I 是 指示 函数 (indicator function〉， 即 y 关 f(x) 时 为 1， 否 则 为 0。 
相应 地 ， 常 见 的 测试 数据 集 上 的 准确 率 (accuracy) 为 


] N' i 
i 2 = (1.17) 
! i=1l 








Test 区 Etest =] 
训练 误 兰 的 大 小 ， 对 判断 给 定 的 问题 是 不 是 一 个 容易 学 习 的 问题 是 
意义 的 ， 但 本 质 上 不 重要 。 测 试 误差 反映 了 学 习 方 法 对 未 知 的 测试 数 
扼 集 的 预测 能 力 ， 是 学 习 中 的 重要 概 仿 。 显 然 ， 给 定 两 种 学 习 方法 ， 测 
试 误 莽 小 的 方法 上 共有 更 好 的 预测 能 力 ， 是 更 有 效 的 方法 。 通 单 将 学 习 方 














法 对 未 知 数据 的 预测 能 力 称 为 泛 化 能 力 〈generalization ability) ， 这 个 
问题 将 在 1.6 节 继续 论述 。 


1.4.2 ”过 拟 合 与 模型 选择 


当 假 设 空间 含有 不 同 复 杂 度 〈 例 如 ， 不 同 的 参数 个 数 ) 的 模型 时 ， 
就 要 面临 模型 选择 (model selection) 的 问题 。 我 们 希望 选择 或 学 习 一 
个 合适 的 模型 。 如 果 在 假设 空间 中 存在 “ 真 ”模型 ， 那 么 所 选择 的 模型 应 
该 通 近 真 模型 。 具 体 地 ， 所 选择 的 模型 要 与 真 模型 的 参数 个 数 相 同 ， 所 
选择 的 模型 的 参数 回 量 与 真 模型 的 参数 同 量 相近 。 

如 果 一 味 妃 求 提 高 对 训练 数据 的 预测 能 力 ， 所 选 模型 的 复杂 上 度 则 往 
往 会 比 真 模型 更 高 。 这 种 现象 称 为 过 拟 合 〈over-fitting) 。 过 拟 合 是 指 
学 习 时 选择 的 模型 所 包含 的 参数 过 多 ， 以 致 于 出 现 这 一 模型 对 已 知 数据 
预测 得 很 好 ， 但 对 未 知 数据 预测 得 很 差 的 现象 。 可 以 说 模型 选择 则 在 避 
免 过 拟 合并 提高 模型 的 预测 能 

下 面 ， 以 多 项 式 函 数 拟 合 问题 为 例 ， 说 明 过 拟 合 与 模型 选择 。 这 是 
一 个 回归 问题 。 

例 1.1 假设 给 定 一 个 训练 数据 集 0: 

T= ‘(| ) 1 有 ,> ),: , 人 SN )} 

其 中 ，ixER 是 输入 x 的 观测 值 ，iyER 是 相应 的 输出 y 的 观测 值 ，i==1,2,， 
...,N。 多 项 式 函 数 拟 合 的 任务 是 假设 给 定数 据 由 M 次 多 项 式 函 数 生 成 ， 
选择 最 有 可 能 产生 这 些 数据 的 M 次 多 项 式 函 数 ， 即 在 M 次 多 项 式 函 数 中 
选择 一 个 对 已 知 数据 以 及 未 知 数据 都 有 很 好 预测 能 力 的 函数 。 

假设 给 定 如 图 1.2 所 示 的 10 个 数据 点 ， 用 0 一 9 次 多 项 式 函 数 对 数据 
进行 拟 合 。 图 中 国 出 了 需要 用 多 项 式 函 数 曲线 拟 合 的 数据 。 

设 M 次 多 项 式 为 


y ;Coo— ; ) 证 A 2 看 自 ; ; -MM 一 ; 
fu(X,W)=wW +WwWX+i+wWx 十 … 十 WiyX = Dn ;2X 
j=0 
































式 中 x 是 单 变 量 输入 ，w,,w,,w,,..…. 是 M+1 个 参数 。 

解决 这 一 问题 的 方法 可 以 是 这 样 的 . 首先 确定 模型 的 复杂 度 ， 即 确 
定 多 项 式 的 次 数 ， 然 后 在 给 定 的 模型 复杂 度 下 ， 按 照 经 验 风 险 最 小 化 的 
策略 ， 求 解 参 数 ， 即 多 项 式 的 系数 ， 有 具体 地 ， 求 以 下 经 验 风 险 最 小 化 : 


L(w) = TUG -py (1.18) 
i=] 








0 本 有: 0 人 
x 
图 1.2 M 次 多 项 式 函 数 拟 合 问题 的 例子 


] 
这 时 ， 损 失 函 数 为 平方 损失 ， 系 数 ? 是 为 了 计算 方便 。 
将 模型 与 训练 数据 代入 式 (1.18) 


1 N NM Y 
L(w)=— 和 一 入 
“2 己 \ 总 


i= 


对 jw 求 俩 导数 并 令 其 为 0， 可 得 
N 





WW 二 ee | 9 j=0,1,2,…,M 


于 是 求 得 拟 合 多 项 式 系数 Wo ,Wi ,Ww 

图 1.2 给 出 了 M 二 0，M 二 1，M 二 3 及 M 二 9 时 多 项 式 函 数 拟 合 的 情 
况 。 如 果 M 二 0， 多 项 式 曲 线 是 一 个 常数 ， 数 据 拟 合 效果 很 差 。 如 果 M 
二 1， 多 项 式 曲 线 是 一 条 直线 ， 数 据 拟 合 效果 也 很 产 。 相 反 ， 如 果 M== 


9， 多 项 式 曲线 通过 每 个 数据 点 ， 训 练 误差 为 0。 从 对 给 定 训练 数据 拟 合 
的 角度 来 说 ， 效 果 是 最 好 的 。 但 是 ， 因 为 训练 数据 本 里 存在 噪声 ， 这 种 
拟 合 曲线 对 未 知 数据 的 预测 能 力 往 往 并 不 是 最 好 的 ， 在 实际 学 习 中 并 不 
可 取 。 这 时 过 拟 合 现象 就 会 发 生 。 这 就 是 说 ， 模 型 选择 时 ， 不 仅 要 考虑 
对 已 知 数据 的 预测 能 力 ， 而 且 还 要 考虑 对 未 知 数 据 的 预测 能 力 。 当 M= 
3 时 ， 多 项 式 曲线 对 训练 数据 拟 合 效果 足够 好 ， 模 型 也 比较 简单 ， 是 一 
个 较 好 的 选择 . 

在 多 项 式 函 数 拟 合 中 可 以 看 到 ， 随 着 多 项 式 次 数 〈 模 型 复 末 度 ) 的 
增加 ， 训 练 误差 会 减 小 ， 直 至 趋同 于 0， 但 是 测试 误 兰 却 不 如 此 ， 它 会 
随 看 多 项 式 次 数 〈 模 型 复杂 上 度 ) 的 增加 先 减 小 而 后 增 大 。 而 最 终 的 目的 
古 使 测试 误差 达到 最 小 。 这 样 ， 在 多 项 式 函 数 拟 合 中 ， 丈 要 选择 合适 的 
0 


图 1.3 摘 述 了 训练 误差 和 测试 误差 与 模型 的 复杂 度 之 间 的 关系 。 当 
模型 的 复杂 上 度 增 大 时 ， 训 练 误差 会 逐渐 减 小 并 趋向 于 0;， 而 测试 误差 会 
先 减 小 ， 达 到 最 小 值 后 又 增 大 。 当 选择 的 模型 复杂 上 度 过 大 时 ， 过 拟 合 现 
象 融会 及 生 。 这 样 ， 在 学 习 时 就 要 防止 过 拟 合 ， 进 行 最 优 的 模型 选择 ， 
即 选 择 复杂 上 度 适 当 的 模型 ， 以 达到 使 测试 误差 最 小 的 学 习 目 的 。 下 面 介 
绍 两 种 常用 的 模型 选择 方法 : 正则 化 与 交叉 验证 。 








测试 误差 


预测 误 关 


训练 误差 


模型 复杂 度 
图 1.3 ”训练 误差 和 测试 误差 与 模型 复杂 度 的 关系 


1.5 ”正则 化 与 交叉 验证 


1.5.1 正则 化 


模型 选择 的 典型 方法 是 正则 化 〈regularization) 。 正 则 化 是 结构 风 
险 最 小 化 策略 的 实现 ， 是 在 经 验 风险 上 加 一 个 正则 化 项 〈regularizer) 
或 鹿 项 (penalty term)。 正 则 化 项 一 般 是 模型 复杂 度 的 单调 递增 函数 ， 模 
型 越 复杂 ， 正 则 化 值 就 越 大 。 比 如 ， 正 则 化 项 可 以 是 模型 参数 同 量 的 范 


数 。 
正则 化 一 般 具 有 如 下 形式 : 





min Lf 6) + a7) (1.19) 

eam i=l 
其 中 ， 第 1 项 是 经 验 风险 ， 第 2 项 是 正则 化 项 ，4>0 为 调整 两 者 之 间 关 系 
的 系数 。 


正则 化 项 可 以 取 不 同 的 形式 。 例 如 ， 回 归 问 题 中 ， 损 失 函 数 是 平方 
损失 ， 正 则 化 项 可 以 是 参数 辐 量 的 L, 范 数 : 


] 站 了 1 全 
L(w) = 一 》(/ (Xi; WwW)—y.) + wll 
N =| 2 


这 里 ，||wl| 表 示 参 数 辐 量 w 的 LL, 范 数 。 
正则 化 项 也 可 以 是 参数 向 量 的 L, 范 数 : 


] N 
5 外 二 二 > (f(x;sw)—y) +Alwil 
1 i=] 


这 里 ，||wl| 表 示 参 数 回 量 w 的 L 范 数 。 

第 1 项 的 经 验 风 险 较 小 的 模型 可 能 较 复杂 (有 多 个 非 零 参数 ) ， 这 
时 第 2 项 的 模型 复杂 度 会 较 大 。 正 则 化 的 作用 是 选择 经 验 风 险 与 模型 复 
杂 上 度 同 时 较 小 的 模型 。 

正则 化 符合 奥 卡 姆 剃刀 (Occam's razor) 原理 。 奥 卡 姆 剃刀 原理 应 
用 于 模型 选择 时 变 为 以 下 想法 : 在 所 有 可 能 选择 的 模型 中 ， 能 够 很 好 地 
解释 已 知 数据 并 且 十 分 简单 才 是 最 好 的 模型 ， 也 就 是 应 该 选择 的 模型 。 
从 贝 叶 斯 估计 的 角度 来 看 ， 正 则 化 项 对 应 于 模型 的 先 验 概 率 。 可 以 假设 
复杂 的 模型 有 较 小 的 先 验 概 率 ， 简 单 的 模型 有 较 大 的 先 验 概 率 。 


1.5.2 ”交叉 验证 


另 一 种 常用 的 模型 选择 方法 是 交叉 验证 (cross validation)。 
如 采 给 定 的 样本 数据 充足 ， 进 行 模型 选择 的 一 种 简单 方法 是 随机 地 








将 数据 集 切 分 成 三 部 分 ， 分 别 为 训练 集 (training set) 、 验 证 集 
(validation set) 和 测试 集 (test set) 。 训 练 集 用 来 训练 模型 ， 验 证 集 用 
于 模型 的 选择 ， 而 测试 集 用 于 最 终 对 学 习 方法 的 评估 。 在 学 习 到 的 不 同 
复杂 度 的 模型 中 ， 选 择 对 验证 集 有 最 小 预测 误差 的 模型 。 由 于 验证 集 有 
足够 多 的 数据 ， 用 它 对 模型 进行 选择 也 是 有 效 的 。 

但 是 ， 在 许多 实际 应 用 中 数据 是 不 充足 的 。 为 了 选择 好 的 模型 ， 可 
以 采用 交叉 验证 方法 。 交 叉 验 证 的 基本 想法 是 重复 地 使 用 数据 ;把 给 定 
的 数据 进行 切 分 ， 将 切 分 的 数据 集 组 合 为 训练 集 与 测试 集 ， 在 此 基础 上 
反复 地 进行 训练 、 测 试 以 及 模型 选择 。 


1. 简单 交叉 验证 


简单 交叉 验证 方法 是 : 首先 随机 地 将 已 给 数据 分 为 两 部 分 ， 一 部 分 
作为 训练 集 ， 男 一 部 分 作为 测试 集 ( 例 如 ，70% 的 数据 为 训练 集 ，30% 
的 数据 为 测试 集 ) ;然后 用 训练 集 在 各 种 条 件 下 《〈 例 如， 不 同 的 参数 个 
数 ) 训练 模型 ， 从 而 得 到 不 同 的 模型 ， 在 测试 集 上 评价 各 个 模型 的 测试 
误差 ， 选 出 测试 误差 最 小 的 模型 。 

2. S 折 交叉 验证 

应 用 最 多 的 是 $ 折 交叉 验证 (S-fold cross validation) ， 方 法 如 下 : 
首先 随机 地 将 已 给 数据 切 分 为 $ 个 互 不 相交 的 大 小 相同 的 子 集 ; 然后 利 


用 S-1 个 子 集 的 数据 训练 模型 ， 利 用 余下 的 子 集 测试 模型 ， 将 这 一 过 程 
对 可 能 的 S 种 选择 重复 进行 ， 最 后 选 出 S 次 评测 中 平均 测试 误 大 最 小 的 六 
2 























3. 留 一 区 文 验证 
S 折 交叉 验证 的 特殊 情形 是 S 王 N， 称 为 留 一 交叉 验证 (leave-one- 


out cross validation) ， 往 往 在 数据 缺乏 的 情况 下 使 用 。 这 里 ，N 是 给 定 
数据 集 的 容量 。 


1.6 泛 化 能 
1.6.1 泛 化 误差 


学 习 方 法 的 泛 化 能 力 〈generalization ability) 是 指 由 该 方法 学 习 到 








的 模型 对 未 知 数据 的 预测 能 力 ， 是 学 习 方法 本 质 上 重要 的 性 质 。 现 实 中 
采用 最 多 的 办 法 是 通过 测试 误差 来 评价 学 习 方法 的 泛 化 能 力 。 但 这 种 评 
价 是 依赖 于 测试 数据 集 的 。 因 为 测试 数据 集 是 有 限 的 ， 很 有 可 能 由 此 得 
到 的 评价 结果 是 不 可 靠 的 。 统 计 学 习 理 论 试图 从 理论 上 对 学 习 方 法 的 泛 
化 能 力 进 行 分 析 。 、 

首先 给 出 泛 化 误差 的 定义 。 如 有 果 学 到 的 模型 是 /， 那 么 用 这 个 模型 
对 未 知 数据 预测 的 误差 即 为 沁 化 误差 (generalization error ) 

R,,(f)= EplL(Y,f(X))]= | wy Lf P(x, ydxdy (1.20) 
泛 化 误差 反映 了 学 习 方 法 的 泛 化 能 力 ， 如 果 一 种 方法 学 习 的 模型 比 另 一 
种 方法 学 习 的 模型 具有 更 小 的 泛 化 误差 ， 那 么 这 种 方法 就 更 有 效 。 事 实 
上 ， 泛 化 误差 就 是 所 学 习 到 的 模型 的 期 望 风险 。 


1.6.2 ” 泛 化 误 关 上 界 


学 习 方 法 的 泛 化 能 力 分 析 往 往 是 通过 研究 泛 化 误差 的 概率 上 界 进 行 
的 ， 简 称 为 泛 化 误差 上 界 〈generalization error bound) 。 具 体 来 说 ,就 
是 通过 比较 两 种 学 习 方法 的 泛 化 误差 上 界 的 大 小 来 比较 它们 的 优 务 。 泛 
化 误 莽 上 界 通常 具有 以 下 性 质 : 它 是 样本 容量 的 函数 ， 当 样本 容量 增加 
时 ， 泛 化 上 界 趋 于 0; 它 是 假设 空间 容量 (capacity) 的 函数 ， 假 设 空间 
容量 越 大 ， 模 型 就 越 难 学 ， 泛 化 误差 上 界 束 越 大 。 
PR 二 类 分 类 问题 的 泛 化 误 

考虑 二 类 分 类 问题 。 己 知 训练 数据 集 T 二 {(x,，y,),(X,，y,)….， 
(Xx,y,)}， 它 是 从 联合 概率 分 布 P(X,Y) 独 立 同 分 布 产生 的 ，XER"， 
Ye{-1,+1}。 假 设 空间 是 函数 的 有 限 集 合 太 二 {f,，f,.….,f,}，d 是 函数 个 
数 。 设 { 是 从 天 中 选取 的 函数 。 损 失 函 数 是 0-1 损 失 。 关 于 {f 的 期 望 风 险 和 


经 验 风险 分 别 是 











R(f)= ELL(Y, f (X))] 本 沪 玖 
rd ] N 
RAS pr (x,)) (1.22) 
4 7 ji=l 
经 验 风险 最 小 化 函数 是 
fv =argmin R(/) (1.23) 


人 们 更 关心 的 是 Nf 的 泛 化 能 


R(CA)= ELZ(7,A(XD))] (1.24) 
下 面 讨 论 从 有 限 集合 天 三 企 ，f.,f} 中 任意 选 出 的 函数 f 的 泛 化 误 
和 
定理 1.1( 泛 化 误差 上 界 ) ”对 二 类 分 类 问题 ， 当 假设 空间 是 有 限 
个 函数 的 集合 天 三 人 芷 ，f,...f} 时 ， 对 任意 一 个 函数 fe.E ， 至 少 以 概率 1- 
O06， 以 下 不 等 式 成 立 : 
R(f)< R(f)+e(d,N,o) (1.25) 
其 中 ， 


] ] 
Ed,N.0)= | 一 -| logd +log— 1.26 
(d,! ) |( 2¢ e ( ) 


不 等 式 〈1.25) 左 端 R() 是 泛 化 误差 ， 右 端 即 为 泛 化 误差 上 界 。 在 
泛 化 误差 上 界 中 ， 第 1 项 是 训练 误差 ， 训 练 误 差 越 小 ， 泛 化 误差 也 越 
小 。 第 2 项 E(d，N,0) 是 N 的 单调 递减 函数 ， 当 NN 趋 于 无 穷 时 趋 于 0; 同时 
它 也 是 logd 阶 的 函数 ， 假 设 空间 .天 包含 的 函数 越 多 ， 其 值 越 大 。 

证 明 在 证 明 中 要 用 到 Hoeffding 不 等 式 ， 先 叙述 如 下 。 


9 = X, » 三 | 区 ~ 
设 b> 是 独立 随机 变量 X,X,,...,X 之 和 ，Xe[la，b ]， 则 对 任意 
t>0， 以 下 不 等 式 成 立 : 


ME -WW = | (1.27) 


Ds (2 “4 ) 


P(ES,—8, > <enp|— + (1.28) 
i b—a) 

对 任意 函数 feE 太 ，Rf) 是 N 个 独立 的 随机 变量 L(Y,f(X)) 的 样本 均值 ， 
R(f) 是 随机 变量 L(Y,f(X)) 的 期 望 值 。 如 果 损 失 函 数 取 值 于 区 间 [0,1]， 即 
对 所 有 i，[a，b ] 二 [0,1], 那 么 由 Hoeffding 不 等 式 (1.28) 不 难得 知 ， 对 全 
>0， 以 下 不 等 式 成 立 : 

P(R(f)-R(f)= 8)< exp(-2Ne’) 

由 于 天 二 {fi,，f,.….,f,} 是 一 个 有 限 集 合 ， 故 


PG3f eF: RF)-Rf)=e)=P( {RF) -Rf) =a)) 
fefF 
< DP(R(f)-R(f)= 2) 
fef 
<dexp(-2Ne’) 


或 者 等 价 的 ， 对 任意 ft 上， 有 
P(R(f)—R(f)<e)21-dexp(-2Ne’) 


令 6=dexp(-2Ne’) (1.29) 
则 P(R(f)<R(f)+e)21-6 


即 至 少 以 概率 1-6 有 R(f)<R(OA)+E， 其 中 由 式 (1.29) 得 到 ， 即 为 式 
(1.26) 。 

从 泛 化 误差 上 界 可 知 ， 

R(f\) R(f\)+e(d,N,o) 

其 中 ，E(d,N,0) 由 式 (1.26) 定义 , f 由 式 (1.23) 定义 。 这 就 是 说 ， 训 
练 误差 小 的 模型 ， 其 泛 化 误差 也 会 小 。 

以 上 讨论 的 只 是 假设 空间 包含 有 限 个 函数 情况 下 的 泛 化 误差 上 界 ， 
对 一 般 的 假设 空间 要 找到 泛 化 误差 界 就 没有 这 么 简单 ， 这 里 不 作 介绍 。 


1.7 生成 模型 与 判别 模型 


监督 学 习 的 任务 就 是 学 习 一 个 模型 ， 应 用 这 一 模型 ， 对 给 定 的 输入 
预测 相应 的 输出 。 这 个 模型 的 一 般 形式 为 决策 函数 : 


Y=f(X) 
或 者 条 件 概 率 分 布 : 
Pp(Y|X) 
监督 学 习 方 法 又 可 以 分 为 生成 方法 (generative approach) 和 判别 方 
法 (discriminative approach) 。 所 学 到 的 模型 分 别称 为 生成 模型 
(generative model〉 和 判别 模型 (discriminative model) 。 
生成 方法 由 数据 学 习 联 合 概率 分 布 P(X,Y)， 然 后 求 出 条 件 概 率 分 布 


P(Y|X) 作 为 预测 的 模型 ， 即 生成 模型 ; 


P(Y|X) a ) 
P(X) 

这 样 的 方法 之 所 以 称 为 生成 方法 ， 是 因为 模型 表示 了 给 定 输入 X 产 生 输 
出 Y 的 生成 关系 。 典 型 的 生成 模型 有 : 朴 又 贝 叶 斯 法 和 隐 马 尔 可 夫 模 
型 ， 将 在 后 面 章 节 进 行 相关 讲述 。 

判别 方法 由 数据 直接 学 习 决 策 函 数 f(X) 或 者 条 件 概 率 分 布 P(Y|X) 作 
为 预测 的 模型 ， 即 判别 模型 。 判 别 方 法 关心 的 是 对 给 定 的 输入 X， 应 该 
预测 什么 样 的 输出 Y。 典 型 的 判别 模型 包括 : k 近 邻 法 、 感 知 机 、 决 策 
树 、 逻 辑 斯 诺 回 归 模 型 、 最 大 和 模 型 、 文 持 癌 量 机 、 提 升 方法 和 条 件 随 
机 场 等 ， 将 在 后 面 革 市 讲述 。 

在 监督 学 习 中 ， 生 成 方法 和 判别 方法 各 有 优 缺 扩 ， 适 合 于 不 同 条 件 
下 的 学 习 问 题 。 

生成 方法 的 特点 : 生成 方法 可 以 还 原 出 联合 概率 分 布 P(X,Y)， 而 判 
别 方法 则 不 能 ， 生 成 方法 的 学 习 收 敛 速度 更 快 ， 即 当 样 本 容量 增加 的 时 
候 ， 学 到 的 模型 可 以 更 快 地 收敛 于 真实 模型 ， 当 存在 隐 变 量 时 ， 仍 可 以 
用 生成 方法 学 习 ， 此 时 判别 方法 就 不 能 用 。 

判别 方法 的 特点 :判别 方法 直接 学 习 的 是 条 件 概 率 P(Y|X) 或 决策 函 
数 f(X)， 直 接 面 对 预测 ， 往 往 学 习 的 准确 紊 更 高 ， 由 于 直接 学 习 P(Y|X) 
或 f{(X)， 可 以 对 数据 进行 各 种 程度 上 的 抽象 、 定 义 特 征 并 使 用 特征 ， 因 
此 可 以 简化 学 习 问 题 。 











1.8 ”分 类 问题 


分 类 是 监督 学 习 的 一 个 核心 问题 。 在 监督 学 习 中 ， 当 输出 变量 Y 取 
有 限 个 离散 值 时 ， 预 测 问 题 便 成 为 分 类 问题 。 这 时 ， 输 入 变量 X 可 以 是 
离散 的 ， 也 可 以 是 连续 的 。 监 督学 习 从 数据 中 学 习 一 个 分 类 模型 或 分 类 
决策 函数 ， 称 为 分 类 器 (classifier) 。 分 类 器 对 新 的 输入 进行 输出 的 预 
测 〈prediction ) ， 称 为 分 类 〈classification) 。 可 能 的 输出 称 为 类 
(class) 。 分 类 的 类 别 为 多 个 时 ， 称 为 多 类 分 类 问题 。 本 书 主要 讨论 二 
类 分 类 问题 。 

分 类 问题 包括 学 习 和 分 类 两 个 过 程 。 在 学 习 过 程 中 ， 根 据 已 知 的 训 
练 数据 集 利 用 有 效 的 学 习 方 法 学 习 一 个 分 类 器 ; 在 分 类 过 程 中 ， 利 用 学 
习 的 分 类 器 对 新 的 输入 实例 进行 分 类 。 分 类 问题 可 用 图 1.4 描 述 。 图 中 
(X,， 了 y),(X,， 了 7,),…,(Xwy,) 是 训练 数据 集 ， 学 习 系 统 由 训练 数据 学 习 一 个 
分 类 器 P(Y|X) 或 Y= 二 f(X); 分 类 系统 通过 学 到 的 分 类 器 P(Y|X) 或 Y=f(X) 对 
于 新 的 输入 实例 x 进行 分 类 ， 即 预测 其 输出 的 类 标记 y、。 











评价 分 


(Xi :yy1 )(X2y> ) ",( Xn,yN) 






学 习 系 统 模型 





XN+] 


分 类 系统 


图 1.4 ”分 类 问题 


类 器 性 能 的 指标 一 般 是 分 类 准确 率 (accuracy) ， 其 定义 





是 :; 对 于 给 定 的 测试 数据 集 ， 分 类 器 正确 分 类 的 样本 数 与 总 样本 数 之 


比 。 也 就 是 


损失 函数 是 0-1 损 失 时 测试 数据 集 上 的 准确 率 ( 见 公式 


CT:17Y 夫 吉 





对 于 三 
(recall) 。 
据 集 上 的 预 


类 分 类 问题 常用 的 评价 指标 是 精确 率 (precision) 与 召回 率 
通常 以 关注 的 类 为 正 类 ， 其 他 类 为 负 类 ， 分 类 器 在 测试 数 
测 或 正确 或 不 正确 ，4 种 情况 出 现 的 总 数 分 别 记 作 : 





TP 一 一 将 正 类 预测 为 正 类 数 ， 
FN 一 一 将 正 类 预测 为 负 类 数 ， 
FP 一 一 将 负 类 预测 为 正 类 数 ，; 
TN 一 一 将 负 类 预测 为 负 类 数 。 


精确 率 定义 为 
二 (1.30) 
TP+FP 
召回 率 定 义 为 
RS 一 (1.31) 
TP+FN 
此 外 ， 还 有 1F 值 ， 是 精确 率 和 召回 率 的 调和 均值 ， 即 
车- 和 
Em 1.32 
= (1.32) 
\ bk (1.33) 


~ 2TP+ FP+EN 





精确 率 和 如 回 率 都 高 时 ，F, 值 也 会 高 。 

许多 统计 学 习 方 法 可 以 用 于 分 类 ， 包 括 k 近 邻 法 、 感 知 机 、 朴 陛 贝 
叶 斯 法 、 决 策 树 、 决 策 列表 、 人 逻辑 斯 育 回 归 模 型 、 文 持 同 量 机 、 提 升 方 
法 、 贝 叶 斯 网 络 、 神 经 网 络 、Winnow 等 。 本 书 将 讲述 其 中 一 些 主 要 方 

分 类 在 于 根据 其 特性 将 数据 “分 门 别 类 ”， 上 所 以 在 许多 领域 都 有 广泛 
的 应 用 。 例 如 ， 在 银行 业务 中 ， 可 以 构建 一 个 客户 分 类 模型 ， 对 客户 按 
照 贷 款 风 险 的 大 小 进行 分 类 ;在 网 络 安全 领域 ， 可 以 利用 日 志 数 据 的 分 
类 对 非法 入 侵 进 行 检 测 ; 在 图 像 处 理 中 ， 分 类 可 以 用 来 检测 图 像 中 是 个 
有 人 脸 出 现 ; 在 手写 识别 中 ， 分 类 可 以 用 于 识别 手写 的 数字 ; 在 互联 网 
搜索 中 ， 网 页 的 分 类 可 以 帮助 网 页 的 抓 取 、 索 引 与 排序 。 

举 一 个 分 类 应 用 的 例子 文本 分 类 (text classification)。 这 里 的 文 
本 可 以 是 新 闻 报 道 、 网 页 、 电 子 邮件 、 学 术 论 文 等 。 类 别 往往 是 关于 文 
本 内 容 的 ， 例 如 政治 、 经 济 、 体 育 等 ， 也 有 关于 文本 特点 的 ， 如 正面 意 
见 、 反 面 意见 ; 还 可 以 根据 应 用 确定 ， 如 垃圾 邮件 、 非 垃圾 邮件 等 。 文 
本 分 类 是 根据 文本 的 特征 将 其 划分 到 已 有 的 类 中 。 输 入 是 文本 的 特征 问 
量 ， 和 输出 是 文本 的 类 别 。 通 第 把 文本 中 的 单词 定义 为 特征 ， 每 个 单词 对 
应 一 个 特征 。 单 词 的 特征 可 以 是 二 值 的 ， 如 果 单 词 在 文本 中 出 现 则 取 值 
是 1， 盏 则 是 0; 也 可 以 是 多 值 的 ， 表 示 单 词 在 文本 中 出 现 的 频率 。 直 观 
地 ， 如 果 “ 股 票 “ 银 行 * 货 币 ” 这 些 词 出 现 很 多 ， 这 个 文本 可 能 属于 经 济 
天， 如 朵 “网 球 “ 比 赛 “ 运 动员 "这些 词 频 紧 出 现 ， 这 个 文本 可 能 属于 体 


月 关 。 

















1.9 标注 问题 


标注 〈tagging) 也 是 一 个 监督 学 习 问 题 。 可 以 认为 标注 问题 是 分 类 
问题 的 一 个 推广 ， 标 注 问 题 又 是 更 复杂 的 结构 预测 (structure 
prediction) 问题 的 简单 形式 。 标 注 问 题 的 输入 是 一 个 观测 序列 ， 输 出 是 
一 个 标记 序列 或 状态 序列 。 标 注 问题 的 目标 在 于 学 习 一 个 模型 ， 使 它 能 
够 对 观测 序列 给 出 标记 序列 作为 预测 。 注 意 ， 可 能 的 标记 个 数 是 有 限 
的 ， 但 其 组 合 所 成 的 标记 序列 的 个 数 是 依 序列 长 度 呈 指数 级 增长 的 。 

标注 问题 分 为 学 习 和 标注 两 个 过 程 〈 如 图 1.5 所 示 ) 。 首 先 给 定 一 
个 训练 数据 集 
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这 里 ，* = sh 3 ) ，i 二 1,2,...,N， 是 输入 观测 序列 ， 


RD A NT 加 
二 (J ,大 ，…,Ji”) 是 相应 的 输出 标记 序列 ，n 是 序列 的 长 度 ， 
对 不 同样 本 可 以 有 不 同 的 值 。 学 习 系 统 基于 训练 数据 集 构建 一 个 模型 ， 
表示 为 条 件 概 率 分 布 : 

P(YW, Ye ss: YI | bb 
这 里 ， 每 一 个 Xe (i 二 1,2,...,n) 取 值 为 所 有 可 能 的 观测 ， 每 一 个 Ye (i= 
1,2,...,n) 取 值 为 所 有 可 能 的 标记 ， 一 般 n= 王 N。 标 注 系 统 按照 学 习 得 到 
的 条 件 概率 分 布 模型 ， 对 新 的 输入 观测 序列 找到 相应 的 输出 标记 序列 
具体 地 ， 对 一 个 观测 序列 Xin = Wrst Xwn yn) 找到 使 条 件 概率 
PU yp ) Oa Wa ) ) 最 大 的 标记 序列 
水 于 和 二 Ge es NE a . 
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标注 系统 


图 1.5 标注 问题 


评价 标注 模型 的 指标 与 评价 分 类 模型 的 指标 一 样 ， 和 常用 的 有 标注 准 
确 率 、 精 确 率 和 召回 率 。 其 定义 与 分 类 模型 相同 。 

标注 常用 的 统计 学 习 方法 有 : 隐 马 尔 可 夫 模 型 、 条 件 随 机 场 。 

标注 问题 在 信息 抽取 、 自 然 语 言 处 理 等 领域 被 广泛 应 用 ， 是 这 些 领 
域 的 基本 问题 。 例 如 ， 和 上 自然 语言 处 理 中 的 词性 标注 (part of speech 
tagging) 就 是 一 个 典型 的 标注 问题 : 给 定 一 个 由 单词 组 成 的 句子 ， 对 这 
个 句子 中 的 每 一 个 单词 进行 词性 标注 ， 即 对 一 个 单词 序列 预测 其 对 应 的 
词性 标记 序列 。 

举 一 个 信息 抽取 的 例子 。 从 英文 文章 中 抽取 基本 名 词 短 语 〈base 
noun phrase) 。 为 此 ， 要 对 文章 进行 标注 。 英 文 单 词 是 一 个 观测 ， 责 文 
句子 是 一 个 观测 序列 ， 标 记 表 示 名 词 短 语 的 “开始 “结束 ”或 “其 
他 ”( 分 别 以 B，E，0O 表 示 〉， 标 记 序 列表 示 英 文句 子 中 基本 名 词 短 语 
的 所 在 位 置 。 信 息 抽 取 时 ， 将 标记 “开始 ”到 标记 “结束 ”的 单词 作为 名 词 






































短语 。 例 如 ， 给 出 以 下 的 观测 序列 ， 即 英文 句子 ， 标 注 系统 产生 相应 的 
标记 序列 ， 即 给 出 句子 中 的 基本 名 词 短语 。 

输入 : At Microsoft Research,we have an insatiable curiosity and the 
desire to create new technology that will help define the computing 
experience。 

输出 : At/O Microsoft/B Research/E,we/O have/O an/O insatiable/B 
curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O 
will/O help/O define/O the/O computing/B experience/E 。 


1.10 ”回归 问题 


回归 (regression) 是 监督 学 习 的 另 一 个 重要 问题 。 回 归 用 于 预测 输 
入 变量 《〈 自 变量 ) 和 输出 变量 〈 因 变量 ) 之 间 的 关系 ， 特 别 是 当 输 入 变 
量 的 值 发 生变 化 时 ， 输 出 变量 的 值 随 之 发 生 的 变化 。 回 归 模 型 正 是 表示 
从 输入 变量 到 输出 变量 之 间 映 射 的 函数 。 回 归 问 题 的 学 习 每 价 于 函数 拟 
家 :这 一杯 罗汉 国 俩 以 闪 候 闻 则 机 命 巴 内 到 所 且 代 业 风 对 出 相知 和 遍 
《参照 1.4.2 节 ) 。 

回归 问题 分 为 学 习 和 预测 两 个 过 程 〈 如 网 1.6 所 示 ) 。 首 先 给 定 一 
个 训练 数据 集 : 
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图 1.6 ”回归 问题 


这 里 ，xER'" 是 输入 ，yER 是 对 应 的 输出 ，i 二 1,2,.….,N。 学 习 系 统 基于 训 
练 数据 构建 一 个 模型 ， 即 函数 Y 二 f(X); 对 新 的 输入 x、， 预 测 系 统 根 据 
学 习 的 模型 Y= 二 f(X) 确 定 相 应 的 输出 y、。 

回归 问题 按照 输入 变量 的 个 数 ， 分 为 一 元 回归 和 多 元 回归 ; 按照 输 





AAA 分 为 线性 回归 和 非 线 
归 。 

回归 学 习 最 利用 的 损失 函数 是 平方 损失 函数 ， 在 此 情况 下 ， 回 归 问 
题 可 以 由 著名 的 最 小 二 乘法 (least squares) 求解 。 

许多 领域 的 任务 都 可 以 形式 化 为 回归 问题 ， 比 如 ， 回 归 可 以 用 于 丙 
务 领域 ， 作 为 市 场 趋势 预测 、 产 品质 量 管理 、 客 户 满意 度 调 查 、 投 资 风 
险 分 析 的 工具 。 作 为 例子 ， 简 单 介 绍 股价 预测 问题 。 假 设 知道 某 一 公司 
在 过 去 不 同时 间 点 《〈 比 如， 每 天 ) 的 市 场 上 的 股票 价格 (比如 ， 股 票 平 
均 价 格 ) ， 以 及 在 各 个 时 间 点 之 前 可 能 影响 该 公司 股价 的 信息 《比如 ， 
该 公司 前 一 周 的 营业 和 额 、 利 润 ) 。 目 标 是 从 过 去 的 数据 学 习 一 个 模型 ， 
使 它 可 以 基于 当前 的 信息 预测 该 公司 下 一 个 时 间 点 的 股票 价格 。 可 以 将 
这 个 问题 作为 回归 问题 解决 。 有 具体 地 ， 将 影响 股价 的 信息 视 为 和 目 变量 
《输入 的 特征 ) ， 而 将 股价 视 为 因 变 量 〈 输 出 的 值 ) 。 将 过 去 的 数据 作 
为 训练 数据 ， 束 可 以 学 习 一 个 回归 模型 ， 并 对 未 来 的 股价 进行 预测 。 可 
以 看 出 这 是 一 个 困难 的 预测 问题 ， 因 为 影响 股价 的 因素 非常 多 ， 我 们 未 
必 能 判断 到 哪些 信息 (输入 的 特征 有 用 并 能 得 到 这 些 信息 。 


本 章 概要 


1. 统计 学 习 是 关于 计算 机 基于 数据 构建 概率 统计 模型 并 运用 模型 
对 数据 进行 分 析 与 预测 的 一 门 学 科 。 统 计 学 习 包 括 监督 学 习 、 非 监督 学 
习 、 半 监督 学 习 和 强化 学 习 。 

2. 统计 学 习 方 法 三 要 素 一 模型、 策略、 算法 ， 对 理解 统计 学 习 
方法 起 到 提纲 玉 领 的 作用 。 

3. 本 书 主 要 讨论 监督 学 习 ， 监 督学 习 可 以 概括 如 下 : 从 给 定 有 限 
的 训练 数据 出 发， 假设 数据 是 独立 同 分 布 的， 而 且 假设 模型 属于 茶 个 假 
设 空间 ， 应 用 东 一 评价 准则 ， 从 假设 空间 中 选取 一 个 最 优 的 模型 ， 使 它 
人 下 有 最 准确 的 预 
测 。 

4. 统计 学 习 中 ， 进 行 模 型 选择 或 者 说 提高 学 习 的 泛 化 能 力 是 一 个 
重要 问题 。 如 果 只 考虑 减少 训练 误差 ， 束 可 能 产生 过 拟 合 现 象 。 模 型 选 
择 的 方法 有 正则 化 与 交叉 验证 。 学 习 方法 泛 化 能 力 的 分 析 是 统计 学 习 理 
论 研 究 的 重要 课题 。 

5. 分 类 问题 、 标 注 问 题 和 回归 问题 都 是 监督 学 习 的 重要 问题 。 本 
书 中 介绍 的 统计 学 习 方 法 包括 感知 机 、K 近 邻 法 、 朴 素 贝 叶 斯 法 、 诀 策 
树 、 逻 辑 斯 详 回 归 与 最 大 燃 模 型 、 支 持 向 量 机 、 提 升 方法 、EM 算 法 、 
隐 马 尔 可 夫 模 型 和 条 件 随机 场 。 这 些 方法 是 主要 的 分 类 、 标 注 以 及 回归 





























方法 。 它 们 又 可 以 归 类 为 生成 方法 与 判别 方法 。 
继续 阅读 
关于 统计 学 习 方法 一 般 介绍 的 书籍 可 以 参阅 文献 [1 一 4]。 
习题 


1.1 ”说明 伯 努 利 模 型 的 极 大 似 然 佑 计 以 及 贝 叶 斯 估计 中 的 统计 学 
习 方 法 三 要 系 。 伯 努 利 模 型 是 定义 在 取 值 为 0 与 1 的 随机 变量 上 的 概率 分 
布 。 假 设 观 测 到 伯 努 利 模 型 n 次 独立 的 数据 生成 结果 ， 其 中 k 次 的 结果 为 
1， 这 时 可 以 用 极 大 似 然 佑 计 或 贝 叶 斯 估计 来 估计 结果 为 1 的 概率 。 

1.2 ”通过 经 验 风险 最 小 化 推导 极 大 似 然 佑 计 。 证 明 模 型 是 条 件 概 
率 分 布 ， 当 损失 函数 是 对 数 损失 函数 时 ， 经 验 风 险 最 小 化 等 价 于 极 大 似 


然 估计 。 
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注释 
[1 本 例 来 自 参考 文献 [3]。 


感知 机 〈perceptron) 是 二 类 分 类 的 线性 分 类 模型 ， 其 输入 为 实例 
的 特征 向 量 ， 输 出 为 实例 的 类 别 ， 取 +1 和 -1 二 值 。 感 知 机 对 应 于 输入 罕 
间 《〈 特 征 空 间 ) 中 将 实例 划分 为 正 负 两 类 的 分 离 超 平面 ， 属 于 判别 模 
型 。 感 知 机 学 习 则 在 求 出 将 训练 数据 进行 线性 划分 的 分 离 超 平面 ， 为 
此 ， 导 入 基于 误 分 类 的 损失 函数 ， 利 用 梯度 下 降 法 对 损失 函数 进行 极 小 
化 ， 求 得 感知 机 模型 。 感 知 机 学 习 算 法 具有 简单 而 易于 实现 的 优点 ， 分 
为 原始 形式 和 对 偶 形 式 。 感 知 机 预测 是 用 学 习 得 到 的 感知 机 模型 对 新 的 
输入 实例 进行 分 类 。 感 知 机 1957 年 由 Rosenblatt 提 出 ， 是 神经 网 络 与 支 
持 癌 量 机 的 基础 。 

本 章 首 先 介 绍 感知 机 模型 ， 然后 叙述 感知 机 的 学 习 策 略 ， 特 别 是 损 
失 函 数 ; 最 后 介绍 感知 机 学 习 算 法 ， 包 括 原 始 形式 和 对 偶 形 式 ， 并 证 明 
算法 的 收敛 性 。 














2.1 感知 机 模型 


定义 2.1 (感知 机 〉 ”假设 输入 空间 特征 空间 〉 是 xSR"， 输 出 空 
间 是 = {+1L-1} 。 输 入 xex 表 示 实 例 的 特征 向 量 ， 对 应 于 输入 空间 〈 特 
征 空间 〉 的 点 ;输出 ye 表示 实例 的 类 别 。 由 输入 空间 到 输出 空间 的 如 
下 函数 





f(x)=sign(w.x+D) (2.1) 
称 为 感知 机 。 其 中 ，w 和 Pb 为 感知 机 模型 参数 ，wER" 叫 作 权 值 《weight) 
或 权 值 向 量 (weight vector) ，bERMU 作 偏 置 (bias)，w:x 表 示 w 和 x 的 
内 积 。sign 是 符号 函数 ， 即 


本 十 1. 0 (2.2) 
Sl A 一 Po 
i 
感知 机 是 一 种 线性 分 类 模型 ， 属 于 判别 模型 。 感 知 机 模型 的 假设 空 
间 是 定义 在 特征 空间 中 的 所 有 线性 分 类 模型 (linear classification 


model) 或 线性 分 类 器 (inear classifier)， 即 孙 数 集合 {flf(x) 二 w:x+b}。 
感知 机 有 如 下 几何 解释 : 线性 方程 
wxX+b=0 (2.3) 





对 应 于 特征 空间 R" 中 的 一 个 超 平面 5， 其 中 w 丰 超生 面 的 法 同 量 ， b 是 超 
平面 的 截 距 。 这 个 超 平面 将 特征 空间 划分 为 两 个 部 分 。 位 于 两 部 分 的 点 
《特征 问 量 〉 分 别 被 分 为 正 、 负 两 类 。 因 此 ， 超 平面 S 称 为 分 六 离 超 平面 
(separating hyperplane) ， 如 图 2.1 所 示 。 
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xt1) 


图 2.1 感知 机 模型 


感知 机 学 习 ， 由 训练 数据 集 〈 实 例 的 特征 向 量 及 类 别 ) 
FT = {W571), (X22) (Xv YR) 
其 中 ，xEx 二 R"，yEy 二 {+1,-1}，i 二 1,2,...,N， 求 得 感知 机 模型 
(2.1) ， 即 求 得 模型 参数 w,b。 感 知 机 预测 ， 通 过 学 习 得 到 的 感知 机 模 
型 ， 对 于 新 的 输入 实例 给 出 其 对 应 的 输出 类 别 。 


2.2 感知 机 学 习 策 略 


2.2.1 数据 集 的 线性 可 分 性 


定义 2.2 es 性 可 分 性 ) ”给 定 一 个 数据 集 
= {(%， 4 sh (R33 yy: CC )} 
其 中 ，XEx 一 Rs， 了 {+1,-1}，i 二 1,2,...,N， 如 果 存 在 某 个 超 平面 S 
wxX+Db= 


能 够 将 数据 集 的 正 实例 点 和 负 实 例 和 
即 对 所 有 y 一 +1 的 实例 1， 有 w:x+b>0， 对 所 有 y 二 -1 的 实例 i， 有 





w'X+b<0， 则 称 数据 集 T 为 线性 可 分 数据 集 (linearly ”separable ”data 
set) ; 否则， 称 数据 集 T 线 性 不 可 分 。 


2.2.2 ”感知 机 学 习 策 略 


假设 训练 数据 集 是 线性 可 分 的 ， 感 知 机 学 习 的 目标 是 求 得 一 个 能 够 
将 训练 集 正 实例 点 和 负 实 例 点 完全 正确 分 开 的 分 离 超 平面 。 为 了 找 出 这 
样 的 超 平 面 ， 即 确定 感知 机 模型 参数 wb， 需 要 确定 一 个 学 习 生 略 ， 即 
定义 经 验 ) 损失 函数 并 将 损失 函数 极 小 化 。 
损失 函数 的 一 个 目 然 选择 是 误 分 类 点 的 总 数 。 但 是 ， 这 样 的 损失 函 
数 不 是 参数 w,b 的 连续 可 导 函 数 ， 不 易 优化 。 损 失 函 数 的 男 一 个 选择 是 
误 分 类 点 到 超 平面 S 的 总 距离 ， 这 是 感知 机 所 采用 的 。 为 此 ， 首 先 写 出 
输入 空间 R' 中 任 一 点 x, 到 超 平 面 $ 的 距离 : 
] 


加 
这 里 ，||wl| 是 w 的 世 苑 数 。 
其 次 ， 对 于 误 分 类 的 数据 (x,，y,〉 来 说 ， 
—y(w-xX+b)>0 
成 立 。 因 为 当 w:x+b>0 时 ，y 二 -1， 而 当 w:x+b<0 时 ，y 二 +1。 因 此 ， 误 
分 类 点 x 到 超 平面 S 的 距离 是 
] 
一 盖世 (COwx 十 D) 
a 
这 样 ， 假 设 超 平 面 S 的 误 分 类 扣 集 合 为 M， 那 么 所 有 误 分 类 扣 到 起 
平面 S 的 总 距离 为 














Iw.x, +D| 





和 2 y (wx, +b) 
由 ws 
1 
不 考虑 Iwl， 就 得 到 感知 机 学 习 的 损失 函数 上 。 
给 定 训练 数据 集 
T = {0,81), (X73) (Xy, pn)} 
其 中 ，xEx 二 R"，yEY 二 {+1,-1}，i 二 1,2,...,N。 感 知 机 sign(w:x+b) 学 习 的 


L(w,b)=— 2 y,(w.x, +b) (2.4) 


XEeM 


其 中 M 为 误 分 类 点 的 集合 。 这 个 损失 函数 束 是 感知 机 学 习 的 经 验 风险 函 


显然 ， 损 失 函 数 L(w,b) 是 非 负 的 。 如 果 没 有 误 分 类 点 ， 损 失 函 数值 
是 0。 而 且 ， 误 分 类 点 越 少 ， 误 分 类 点 离 超 平面 越 近 ， 损 失 函 数值 就 越 
小 。 一 个 特定 的 样本 点 的 损失 函数 : 在 误 分 类 时 是 参数 w,b 的 线性 函 
数 ， 在 正确 分 类 时 是 0。 因 此 ， 给 定 训练 数据 集 T， 损 失 函 数 L(w,b) 是 
wb 的 连续 可 导 函 数 。 

感知 机 学 习 的 策略 是 在 假设 空间 中 选取 使 损失 函数 式 〈2.4) 最 小 
的 模型 参数 wb， 即 感知 机 模型 。 


2.3 ”感知 机 和 学习 算法 


感知 机 学 习 问 题 转化 为 求解 损失 函数 式 〈2.4) 的 最 优化 问题 ， 最 
优化 的 方法 是 随机 梯度 下 降 法 。 本 节 叙 述 感知 机 学 习 的 具体 算法 ， 包 括 
2 并 证 明 在 训练 数据 线性 可 分 条 件 下 感知 机 学 习 算 


2.3.1 感知 机 学 习 算 法 的 原始 形式 
感知 机 学 习 算法 是 对 以 下 最 优化 问题 的 算法 。 给 定 一 个 训练 数据 集 


T = {X71), (X22) (Xvs YN) 
其 中 ，xEx 二 R"，yEy 二 {-1,1}， i 一 1,2,...,N， 求 参数 w,b， 使 其 为 以 
下 损失 函数 极 小 化 问题 的 解 
min L(w,Db) = 一 》 y(w.x, +b) (2.5) 
; xeM 
其 中 M 为 误 分 类 点 的 集合 。 
感知 机 学 习 算 法 是 误 分 类 驱动 的 ， 有 具体 采用 随机 梯度 下 降 法 
Cstochastic gradient descent) 。 首 先 ， 任 意 选 取 一 个 超 平 面 ,w,b,， 然 后 
用 梯度 下 降 法 不 断 地 极 小 化 目标 函数 〈2.5) 。 极 小 化 过 程 中 不 是 一 次 
人 
受 个 隆 。 
假设 误 分 类 点 集合 M 是 固定 的 ， 那 么 损失 函数 L(w,b) 的 梯度 由 

















V,L(w,b)=— py yx, 


EM 


VL(w,b)=— y 


NE M 


给 出 。 
随机 选取 一 个 误 分 类 点 (Xx，y)， 对 w,b 进 行 更 新 : 
W<— W+7 yx (2.0) 
bb+t+ny, (2.7) 


式 中 (0<7<1) 是 步 长 ， 在 统计 学 习 中 叉 称 为 学 习 率 (learning rate) 。 这 
样 ， 通 过 夫 代 可 以 期 等 损失 函数 L(w,b) 不 断 减 小 ， 直 到 为 0。 综 上 所 
述 ， 得 到 如 下 算法 : 

算法 2.1 (感知 机 学 习 算 法 的 原始 形式 ) 

输入 : 训练 数据 集 T 二 {(x,，y),(X,,y,),.….,(Xwy,)}， 其 中 xEx 一 R'"，yE 
=={-1,+1}，i 二 1,2,...,N; 学 习 率 71(0<77<1); 

输出 : wb; 感知 机 模型 f(x) 二 sign(w:x+b)。 

(1) 选取 初 值 w,b， 

(2) 在 训练 集中 选取 数据 (x，y) 

(3) 如 果 y(w:x+b)<0 

we w+ny,x, 


bbt+ny. 


(4) 转 至 (2) ， 直 至 训练 集中 没有 误 分 类 点 。 

这 种 学 习 算 法 直观 上 有 如 下 解释 : 当 一 个 实例 点 被 误 分 类 ， 即 位 于 
分 离 超 平面 的 错误 一 侧 时 ， 则 调整 w,b 的 值 ， 使 分 离 超 平面 向 该 误 分 类 
点 的 一 侧 移动 ， 以 减少 该 误 分 类 点 与 超 平面 间 的 距离 ， 直 全 超 平面 越过 
该 误 分 类 点 使 其 被 正确 分 类 。 

算法 2.1 是 感知 机 学 习 的 基本 算法 ， 对 应 于 后 面 的 对 偶 形 式 ， 称 为 
原始 形式 。 感 知 机 学 习 算 法 简单 且 易 于 实现 。 

例 2.1 ”如 图 2.2 所 示 的 训练 数据 集 ， 其 正 实例 点 是 x 二 (3,3)，Xx, 二 
(4,3)， 负 实例 点 是 x, 三 (1,1)， 试 用 感知 机 学 习 算法 的 原始 形式 求 感知 机 
模型 f(x) 二 sign(w:x+b)。 这 里 ，w 王 (Ww?,w®%)，X 二 (Xx%,Xx?)'。 











2xfl ) 十 X2) 一 5=0 





图 2.2 感知 机 示例 


解 ” 构 建 最 优化 问题 : 
min L(w,p)=— 和 y(w.xX+Db) 


x eM 
按照 算法 2.1 求 解 w,b。”=1。 
(1) 取 初 值 w, 二 0，b, 二 0 
(2) 对 x 二 (3,3)"，y,(w,*x+b,) 二 0， 未 能 被 正确 分 类 ， 更 新 w,b 
Wi =wW +yx =(3,3) ， b=b +y,=] 
得 到 线性 模型 
Wi "XxX+Db =3x' +3x" +l 
(3) 对 xx， 显 然 ，y(w'x+b)>0， 被 正确 分 类 ， 不 修改 wb;， 对 X, 
三 (11)，y(w'x+b)<0， 被 误 分 类 ， 更 新 wb。 
人 守 信守 和 =) 下 总 瑟 于 交 二 0 
得 到 线性 模型 
w, -xX+b, 王 2X0 +2x" 


如 此 继续 下 去 ， 直 到 


w, =(],1) ，b, =-3 


WXx+b, =x "+x 一 3 
对 所 有 数据 点 y(w,*Xx+b,)>0， 没 有 误 分 类 点 ， 损 失 函 数 达 到 极 小 。 
分 离 超 平 面 为 x"+x®%-3 二 0 
感知 机 模型 为 fx) 王 sign(xo+x2-3) 








迭代 过 程 见 表 2.1。 
表 2.1 例 2.1 求 解 的 兴 代 过 程 
迭代 次 数 误 分 类 点 b Wi sx 十 

0 0 0 0 

| x (3,3)" | 3x0A+3x+1| 
2 x (2,2)" 0 2x' + 2x'*) 

3 x (1,1)" | x TY 一 | 

1 这 (0,0)" 2 = 

5 x (3,3)" | 3x+3x 一 | 
6 x (公分 2 2x0 +2x 一 一 2 
* x (1,D)’ 3 Xx —3 

8 0 (1,1)’ 3 x 二 xD) 一 3 


这 是 在 计算 中 误 分 类 点 先后 取 X,x,XXXXX 得 到 的 分 离 超 平面 和 
感知 机 模型 。 如 果 在 计算 中 误 分 类 点 依次 取 xXx,x,,X,,X,,X,,X,,X,,X,,X,,X,,Xx,， 那 
么 得 到 的 分 离 超 平面 是 xzo+xe-5 一 0。 

可 见 ， 感 知 机 学 习 算 法 由 于 采用 不 同 的 初 值 或 选取 不 同 的 误 分 类 
点 ， 解 可 以 不 同 。 


2.3.2 ”算法 的 收敛 性 


现在 证 明 ， 对 于 线性 可 分 数据 集 感 知 机 学 习 算 法 原始 形式 收敛 ， 即 
经 过 有 限 次 迭代 可 以 得 到 一 个 将 训练 数据 集 完全 正确 划分 的 分 离 超 平面 
及 感知 机 模型 。 

为 了 便于 叙述 与 推导 ， 将 偏 置 b 并 入 权重 向 量 w， 记 作风 二 (wb 
同样 也 将 输入 回 量 加 以 扩充 ， 加 进 常数 1， 记 作 X 二 (x”,1)*。 这 样 ，X 
ER ，WEeR。 显 然 ， 作 .区 一 w:x+b。 

定理 2.1 (Novikoff) ” 设 训 练 数据 集 T 二 {(x,，y),(X,，y,),.….,(Xwy,)} 
是 线性 可 分 的 ， 其 中 xEx 二 R'"，yEY = 二 {-1,+1}， i 二 1,2,.….,N， 则 





(1) 存在 满足 条 件 | 你 |=1 的 超 平面 你 惹 王 w :x+b 二 0 将 训练 数 
据 集 完全 正确 分 开 ， 且 存在 />0， 对 所 有 i 二 1,2,...,N 
入 (Wan 芒 ) = ( Wopt bo ) = 7 (CoB) 
R= max lx 
(2) 令 max 凡 | 襄 知 机 算法 2.1 在 训练 数据 集 上 的 涡 分 类 
次 数 k 满 足 不 等 式 


5 2| (2.9) 

证 明 1) 由 于 训练 数据 集 是 线性 可 分 的 ， 按 照 定义 2.2， 存 在 超 
平面 可 将 训练 数据 集 完 全 正确 分 开 ， 取 此 超 平面 为 WX 二 w,…x+b, 一 
0， 使 |WW 川 =1。 由 于 对 有 限 的 i 二 1,2,.….,N， 均 有 


); (Wn : X,) 3 Di (Wopt ES 0 





所 以 存在 


一 1 fy Ph oY l 
7 = mint (Wt 


使 


多 ( op . Xx, ) 只 (We X, " 类 ) 全 + 


”2) 感知 机 算法 从 WwW.=0 开 始 ， 如 果实 例 被 误 分 类 ， 则 更 新 权重 。 
令 W ,是 第 k 个 误 分 类 实例 之 前 的 扩充 权重 向 量 ， 即 











Ww, = (Ww bh ek 
则 第 k 个 误 分 类 实例 的 条 件 是 
py((W et)=y (WX +b, )<0 (2.10) 


ert 1 
若 (x，y) 是 被 -1 = (OO ) 误 分 类 的 数据 ， 则 w 和 b 的 更 新 是 
W， 《Wi + NYX 
b, < pb, | 十 17] 
即 
亢 = 训 ， 二 777 宛 (2.11) 
F 面 推导 两 个 不 等 式 ; 
(1) 
Wi * Wnt 之 KNY (2.12) 





由 式 〈2.11) 及 式 (2.8) 得 


We Wo = Wes W + ;Wo "ON 


宇 W. i。 Wm +7y 
由 此 递 推 即 得 个 等 2 C212) 
WwW, “Wnt 之 > W 
(2) 
[Wl rR (2.13) 
由 式 (2.11) 及 式 (2.10) 得 


四 2 - 2 ~ ~ 了 ~ 2 
w= 2 


“Wot 十 11N 过 W 7 让- Wn 十 Ey 


| 2 7 a 2 
< re ~ 
< + | 


了 
la 站 2 p2 
< rR 





< [wm i 
< ky RR 
结合 不 等 式 〈2.12) 及 式 〈2.13) 即 得 
Kny < Wi * Wn < | WwW, | Wn 
ky’ <kR’ 


< [2| 
Fr 


定理 表明 ， 误 分 类 的 次 数 k 是 有 上 界 的 ， 经 过 有 限 次 搜索 可 以 找到 
将 训练 数据 完全 正确 分 开 的 分 离 超 平 甸 。 也 就 是 说 ， 当 训练 数据 集 线 性 
可 分 时 ， 感 知 机 学 习 算 法 原始 形式 迭代 是 收敛 的 。 但 是 例 2.1 说 明 ， 感 
知 机 学 习 算 法 存在 许多 解 ， 这 些 解 既 依赖 于 初 值 的 选择 ， 也 依赖 于 旬 代 
过 程 中 误 分 类 点 的 选择 顺序 。 为 了 得 到 唯一 的 超 平面 ， 需 要 对 分 离 超 平 
面 增加 约束 条 件 。 这 就 是 第 7 章 将 要 讲 述 的 线性 文 持 癌 量 机 的 想法 。 当 
训练 集 线 性 不 可 分 时 ， 感 知 机 学 习 算 法 不 收敛 ， 述 代 结 果 会 发 生 宕 荡 。 


2.3.3 ”感知 机 学 习 算 法 的 对 偶 形 式 








| 二 VkEnR 

















现在 考虑 感知 机 学 习 算法 的 对 偶 形 式 。 感 知 机 学 习 算 法 的 原始 形式 
1 第 7 章 中 文 持 问 量 机 学 习 算 法 的 原始 形式 和 对 偶 形 式 相 对 
Yo 
对 偶 形 式 的 基本 想法 是 ， 将 w 和 b 表 示 为 实例 x 和 标记 y 的 线性 组 合 
的 形式 ， 通 过 求解 其 系数 而 求 得 w 和 b。 不 失 一 般 性 ， 在 算法 2.1 中 可 假 
设 初始 值 wb, 均 为 0。 对 误 分 类 点 (x,，y,) 通过 
We w+nyx, 











bb+t+ny, 
逐步 修改 wb， 设 修改 n 次 ， 则 w,b 关 于 〈xX，y) 的 增 量 分 别 是 ayx 和 
ay， 这 里 a=n7。 这 样 ， 从 学 习 过 程 不 难看 出 ， 最 后 学 习 到 的 wb 可 以 
分 别 表示 为 


N 
W= 0.7% (2.14) 
i=] 


有 
= Ys (2.15) 


二 

这 里 ，az0，i 王 12,...,N， 当 ?1 三 1 时 ， 表 示 第 i 个 实例 点 由 于 误 分 而 进行 
更 新 的 次 数 。 实 例 点 更 新 次 数 越 多 ， 意 味 着 它 距离 分 离 超 平面 越 近 ， 也 
束 越 难 正确 分 类 。 换 人 句 话说 ， 这 样 的 实例 对 学 习 结 果 影 响 最 大 。 

下 面 对 照 原始 形式 来 叙述 感知 机 学 习 算 法 的 对 偶 形 式 。 

算法 2.2《〈 感 知 机 学 习 算 法 的 对 偶 形 式 ) 

输入 : 线性 可 分 的 数据 集 T={GCX，y),(X，y) (xy )}， 其 中 
XER"，yeE{-1,+1}，i 二 1,2,.…..,N; 学 习 率 (0<7<1) ; 


f(x)= son [Say “X + 
ji 














输出 : a,b; 感知 机 模型 
其 中 a 二 (a,a,...,a)'。 
(1) ae0， beo0 

(2) 在 训练 集中 选取 数据 (x，y) 
" 5 信和 DE 
(3) 如 果 \j 


VE 
bb+ ny 
(4) 转 至 〈2) 直到 没有 误 分 类 数据 。 


对 倡 形式 中 训练 实例 仅 以 内 积 的 形式 出 现 。 为 了 方便 ， 可 以 预先 将 
训练 集中 实例 间 的 内 积 计 算出 来 并 以 矩阵 的 形式 存储 ， 这 个 和 矩阵 就 是 所 
谓 的 Gram 和 矩阵 (Gram matrix) 


G =[X, x Jyxw 
例 2.2 ”数据 同 例 2.1， 正 样本 点 是 x 二 (3,3)，x, 二 (4,3)"， 负 样本 点 
是 x, 二 (1,1)， 试 用 感知 机 学 习 算 法 对 侦 形 式 求 感知 机 模型 。 
解 ” 按 照 算法 2.2， 
(1 取 a=0, i=1,2,3; b=0; $=1 
(2) 计算 Gram 和 矩阵 
I 党 
在 二 | 动 ， 2 有 WW 
入 “ 邹 ” 泛 
(3) 误 分 条 件 


MN 
» Sos “十 三 0 
1=] 
参数 更 新 


2Q a+l, bobty, 


(4) 达 代 。 过 程 从 略 ， 结 果 列 于 表 2.2。 


(5) 
w=2x +0x,—5x, =(,1) 
b=-3 
分 离 超 平面 
x +x —3=0 
感知 机 模型 


f(x)=sign(x" +x —3) 
表 2.2” 例 2.2 求 解 的 迭代 过 程 


k 0 ] 2 3 上 3 0 7 

第 xX X, 上 x Xe 沪 
a 0 ] | | 2 2 2 
CQ 0 0 0 0 0 0 0 0 
a 0 0 | 2 2 二 5 
pb 0 ] 0 | 0 ] 2 3 


对 照例 2.1， 结 果 一 致 ， 妈 代步 又 也 是 互相 对 应 的 。 
与 原始 形式 一 样 ， 感 知 机 学 习 算 法 的 对 侦 形 式 达 代 是 收敛 的 ， 存 在 


多 个 解 
本 章 概 要 


1. 感知 机 是 根据 输入 实例 的 特征 辣 量 x 对 其 进行 二 类 分 类 的 线性 分 
类 模型 : 
f(x)=sigen(w.x+b) 
感知 机 模型 对 应 于 输入 空间 (特征 空间 〉 中 的 分 离 超 平面 w:x+b 二 0。 
2. 感知 机 学 习 的 策略 是 极 小 化 损失 函数 : 
minL(w,b)=— > y (wxX, 十 D) 
Wa reM 
损失 函数 对 应 于 误 分 类 点 到 分 离 超 平面 的 总 距离 。 

3. 感知 机 学 习 算 法 是 基于 随机 梯度 下 降 法 的 对 损失 函数 的 最 优化 
算法 ， 有 原始 形式 和 对 偶 形 式 。 算 法 简单 且 易 于 实现 。 原 始 形式 中 ， 首 
先 任意 选取 一 个 超 平面 ， 然 后 用 梯度 下 降 法 不 断 极 小 化 目标 函数 。 在 这 
个 过 程 中 一 次 随机 选取 一 个 误 分 类 点 使 其 梯度 下 降 。 

4. 当 训 练 数据 集 线 性 可 分 时 ， 感 知 机 学 习 算法 是 收敛 的 。 感 知 机 
算法 在 训练 数据 集 上 的 误 分 类 次 数 k 满 足 不 等 式 : 


E 


当 训 练 数据 集 线 性 可 分 时 ， 感 知 机 学 习 算 法 存在 无 穷 多 个 解 ， 其 解 
由 于 不 同 的 初 值 或 不 同 的 闪 代 顺序 而 可 能 有 所 不 同 。 


继续 阅读 


感知 机 最 早 在 1957 年 由 Rosenblatt 提 出 "。Novikoff mm，IMinsky 与 

















Papert* 等 人 对 感知 机 进行 了 一 系列 理论 研究 。 感 知 机 的 扩展 学 习 方 法 包 
括 口 袋 算 法 (pocket algorithm) “、 表 决 感知 机 (voted perceptron ) 中 、 

带 边缘 感知 机 (perceptron with margin) %。 关 于 感知 机 的 介绍 可 进一步 
参考 文献 [7,8]。 


习 圳 


2.1 Minsky 与 Papert 指 出 : 感知 机 因为 是 线性 模型 ， 所 以 不 能 表示 
复杂 的 函数 ， 如 异 或 (XOR)〉。 验 证 感知 机 为 什么 不 能 表示 异 或 。 

2.2 ”模仿 例题 2.1， 构 建 从 训练 数据 集 求解 感知 机 模型 的 例子 。 

2.3 ”证 明 以 下 定理 : 样本 集 线 性 可 分 的 充分 必要 条 件 是 正 实例 点 
集 所 构成 的 凸 这 8 与 负 实 例 点 集 所 构成 的 凸 壳 互 不 相交 。 
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全 和 任 

[ 第 7 章 中 会 介绍 y(w'x+b) 称 为 样本 点 的 函数 间隔 。 4 

[2] 设 集 合 SCR" 是 由 Re" 中 的 k 个 点 所 组 成 的 集合 ， 即 S$ 三 {,，x….X}。 定 义 S 的 凸 壳 
conv(S) 为 
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第 3 间 kk 近 邻 法 





k 近 令 法 (k-nearest neighbor，k-NN) 是 一 种 基本 分 类 与 回归 方 
法 。 本 书 只 讨论 分 类 问题 中 的 k 近 邻 法 。k 近 邻 法 的 输入 为 实例 的 特征 辐 
量 ， 对 应 于 特征 空间 的 点 ;输出 为 实例 的 类 别 ， 可 以 取 多 类 。k 近 邻 法 
假设 给 定 一 个 训练 数据 集 ， 其 中 的 实例 类 别 已 定 。 分 类 时 ， 对 新 的 实 
例 ， 根 据 其 k 个 最 近邻 的 训练 实例 的 类 别 ， 通 过 多 数 表 决 等 方式 进行 预 
测 。 因 此 ，k 近 邻 法 不 具有 显 式 的 学 习 过 程 。k 近 邻 法 实际 上 利用 训练 数 
据 集 对 特征 同 量 空间 进行 划分 ， 并 作为 其 分 类 的 “模型 ”。k 值 的 选择 、 
距离 度量 及 分 类 决策 规则 是 k 近 令 法 的 三 个 基本 要 素 。k 近 邻 法 1968 年 由 
Cover 和 Hart 提 出 。 

本 章 首 先 叙 述 k 近 邻 算 法 ， 然 后 讨论 k 近 邻 法 的 模型 及 三 个 基本 要 
素 ， 最 后 讲述 k 近 邻 法 的 一 个 实现 方法 一 一 kd 树 ， 介 绍 构造 kd 树 和 搜索 
kd 树 的 算法 。 








3.1 kk 近邻 算 法 


k 近 邻 算法 简单 、 直 观 : 给 定 一 个 训练 数据 集 ， 对 新 的 输入 实例 ， 
在 训练 数据 集中 找到 与 该 实例 最 邻近 的 k 个 实例 ， 这 k 个 实例 的 多 数 属于 
某 个 类 ， 就 把 该 输入 实例 分 为 这 个 类 。 下 面 先 叙 述 k 近 邻 算 法 ， 然 后 再 
讨论 其 细 市 。 

算法 3.1(k 近 邻 法 ) 

输入 : 训练 数据 集 

r= ft 
其 中 ，xEx SR' 为 实例 的 特征 向 量 ，yeE》={c，c.….,c,} 为 实例 的 类 别 ，i 
二 1,2,.….,N; 实例 特征 向 量 x; 

输出 : 实例 x 所 属 的 类 y。 

(1) 根据 给 定 的 距离 度量 ， 在 训练 集 T 中 找 出 与 x 最 邻近 的 k 个 点 ， 
涵盖 这 k 个 点 的 x 的 邻 域 记 作 NN (x); 

(2) 在 N,(x) 中 根据 分 类 决策 规则 (如 多 数 表 决 ) 决 定 x 的 类 别 y: 

y=argmax 2, I =€6)s T= 2 N; j=12°°,K (3.1) 


x eN, (x) 





式 (3.1) 中 ，I 为 指示 函数 ， 即 当 y 二 c 时 I 为 1， 否 则 I 为 0。 

k 近 邻 法 的 特殊 情况 是 k 王 1 的 情形 ， 称 为 最 近邻 算法 。 对 于 输入 的 
实例 点 (特征 向 量 ) x， 最 近邻 法 将 训练 数据 集中 与 x 最 邻近 点 的 类 作为 
x 的 类 。 

k 近 邻 法 没有 显 式 的 学 习 过 程 。 


3.2 近邻 模型 


k 近 邻 法 使 用 的 模型 实际 上 对 应 于 对 特征 空间 的 划分 。 模 型 由 三 个 
基本 要 素 一 一 距离 度量 、k 值 的 选择 和 分 类 决策 规则 决定 。 


3.2.1 ”模型 


k 近 令 法 中 ， 当 训练 集 、 距 离 度量 (如 欧 氏 距离 ) 、k 值 及 分 类 决策 
规则 (如 多 数 表 决 ) 确定 后 ， 对 于 任何 一 个 新 的 输入 实例 ， 它 所 属 的 类 
唯一 地 确定 。 这 相当 于 根据 上 述 要 素 将 特征 空间 划分 为 一 些 子 空间 ， 确 
定子 空间 里 的 每 个 所 所 属 的 闫 。 这 一 事实 从 最 近邻 完 法 中 可 以 看 得 很 清 
年。 


特征 空间 中 ， 对 每 个 训练 实例 点 过， 距离 该 点 比 其 他 点 更 近 的 所 有 
点 组 成 一 个 区 域 ， 叫 作 单 元 〈cell) 。 每 个 训练 实例 点 拥有 一 个 单元 ， 
所 有 训练 实例 点 的 单元 构成 对 特征 空间 的 一 个 划分 。 最 近邻 法 将 实例 这 
的 类 iy 作 为 其 单元 中 所 有 点 的 类 标记 (class label) 。 这 样 ， 每 个 单元 的 
实例 点 的 类 别 是 确定 的 。 图 3.1 是 二 维特 征 空间 划分 的 一 个 例子 。 






































0 x 1) 
图 3.1 近邻 法 的 模型 对 应 特征 空间 的 一 个 划分 


3.2.2 ”上 距离 度量 


特征 空间 中 两 个 实例 点 的 距离 是 两 个 实例 点 相似 程度 的 有 反映 。k 近 
邻 模 型 的 特征 空间 一 般 是 n 维 实数 疝 量 空 间 R"。 使 用 的 距离 是 欧 氏 距 
离 ， 但 也 可 以 是 其 他 距离 ， 如 更 一 般 的 L 距离 (L， distance) 或 
Minkowski 距 离 (Minkowski distance) 。 

设 特征 空间 x 是 n 维 实数 向 量 空间 R， ER 四 
VX E 全 入 三 (人 和 
的 距离 定义 为 

Lx)) = | Fl -Pp T (3.2) 


这 里 p>1。 当 p 二 2 时 ， 称 为 欧 氏 距离 (Euclidean distance)， 即 


A bs 一 3 (3.3) 
=} 
当 p 二 1 时 ， 称 为 曼哈顿 距离 (Manhattan distance〉， 即 


n 
) ll 
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当 p 二 00 时 ， 它 是 各 个 坐标 距离 的 最 大 值 ， 即 
E(w ))= max |x | (3.5) 


图 3.2 给 出 了 二 维 空间 中 p 取 不 同 值 时 ， 与 原点 的 L 距离 为 1 (L 二 
1) 的 点 的 图 形 。 








图 3.2 工 , 距 离间 的 关系 





下 面 的 例子 说 明 ， 由 不 同 的 距离 度量 所 确定 的 最 近邻 点 是 不 同 的 。 

例 3.1 己 知 二 维 空间 的 3 个 点 x 二 (1,1),x, 二 (5,1),x, 二 (4,4)"， 试 求 在 
p 取 不 同 值 时 ， 工 距离 下 x 的 最 近邻 点 。 

解 因为 x 和 x 只 1 有 第 二 维 上 值 不 同 ， 所 以 p 为 任何 值 时 ，L (x,，X,) 
二 4。 而 

LXE)=6, L(x)=424, L(Y,%)=3.78, L(x;%)=3.57 
于 是 得 到 : p 等 于 1 或 2 时 ，x, 是 x 的 最 近邻 点 ;，p 大 于 每 于 3 时 ，x, 是 x 的 
最 近邻 点 。 


3.2.3 kk 值 的 选择 


k 值 的 选择 会 对 k 近 邻 法 的 结果 产生 重大 影 啊 。 

如 果 选 择 较 小 的 k 值 ， 束 相当 于 用 较 小 的 邻 域 中 的 训练 实例 进行 预 
测 ，“ 学 习 ” 的 近似 误差 (approximation error) 会 减 小 ， 只 有 与 输入 实例 
较 近 的 《相似 的 ) 训练 实例 才 会 对 预测 结果 起 作用 。 但 缺点 是 “学 习 ” 的 








估计 误差 (estimation error) 会 增 大 ， 预 测 结果 会 对 近邻 的 实例 点 非常 
敏感 "?。 如 果 邻 近 的 实例 点 恰巧 是 噪声 ， 预 测 就 会 出 错 。 换 句 话 说 ，k 值 
的 减 小 就 意味 着 整体 模型 变 得 复杂 ， 容 易 发 生 过 拟 合 。 

如 果 选 择 较 大 的 k 值 ， 就 相当 于 用 较 大 邻 域 中 的 训练 实例 进行 预 
测 。 其 优点 是 可 以 减少 学 习 的 估计 误差 。 但 缺点 是 学 习 的 近似 误差 会 增 
大 。 这 时 与 输入 实例 较 远 的 〈 不 相似 的 ) 训练 实例 也 会 对 预测 起 作用 ， 
使 预测 发 生 错 误 。Kk 值 的 增 大 就 意味 独 整 体 的 模型 变 得 简单 。 

如 打 k 二 N， 那 么 无 论 输入 实例 是 什么 ， 都 将 简 蛙 地 预测 它 属 于 在 
训练 实例 中 最 多 的 类 。 这 时 ， 模 型 过 于 简单 ， 完 全 忽略 训练 实例 中 的 大 
量 有 用 信息 ， 是 不 可 取 的 。 

在 应 用 中 ，k 值 一 般 取 一 个 比较 小 的 数值 。 通 名 采用 交叉 验证 法 来 
选取 最 优 的 k 值 。 











3.2.4 ”分 类 决策 规则 


k 近 邻 法 中 的 分 类 决策 规则 往往 是 多 数 表决 ， 即 由 输入 实例 的 k 个 邻 
近 的 训练 实例 中 的 多 数 类 决定 输入 实例 的 类 。 
多 数 表 决 规则 (majority voting rule) 有 如 下 解释 : 如 果 分 类 的 损失 
函数 为 0-1 损 失 函 数 ， 分 类 函数 为 
万 及 一 人 Ce 





那么 误 分 类 的 概 京 古 
YD=1— A =I(2) 

对 给 定 的 实例 xex， 其 最 近邻 的 k 个 训练 实例 点 构成 集合 N,(x)。 如 果 涵 蔓 
N(x) 的 区 域 的 类 别 是 ce， 那么 误 分 类 率 是 

2 ”下 入京 通 jd a 2, I,=¢€)) 

『 VEN,(x) k veEN:(xX) 

Ce ee 2, 1%=6) _ 

要 使 误 分 类 率 最 小 即 经 验 风险 最 小 ， 束 要 使 semQ% 最 大 ， 所 以 多 
数 表决 规则 等 价 于 经 验 风险 最 小 化 。 


3.3 近邻 法 的 实现 : kd 树 
实现 k 近 邻 法 时 ， 主 要 考虑 的 问题 是 如 何 对 训练 数据 进行 快速 k 近 邻 


搜索 。 这 点 在 特征 空间 的 维 数 大 及 训练 数据 容量 大 时 尤其 必要 。 
k 和 近邻 法 最 简单 的 实现 方法 是 线性 扫描 (inear scan) 。 这 时 要 计算 














输入 实例 与 每 一 个 训练 实例 的 距离 。 当 训练 集 很 大 时 ， 计 算 非常 耗 时 ， 
这 种 方法 是 不 可 行 的 。 

为 了 提高 k 近 邻 搜 索 的 效率 ， 可 以 考虑 使 用 特殊 的 结构 存储 训练 数 
据 ， I. 具体 方法 很 多 ， 下 面 介 绍 其 中 的 kd 树 (kd 
tree) 方法 J。 


3.3.1 构造 kd 树 


kd 树 是 一 种 对 k 维 空间 中 的 实例 点 进行 存储 以 便 对 其 进行 快速 检索 
的 树 形 数据 结构 。kd 树 是 二 叉 树 ， 表 示 对 k 维 空间 的 一 个 划分 
Cpartition ) 。 构 造 kd 树 相当 于 不 断 地 用 垂直 于 坐标 轴 的 超 平 面 将 k 维 空 
间 切 分 ， 构 成 一 系列 的 k 维 超 矩 形 区 域 。kd 树 的 每 个 结 点 对 应 于 一 个 k 维 
超 和 矩形 区 域 。 

构造 kd 树 的 方法 如 下 : 构造 根 结 点 ， 使 根 结 点 对 应 于 k 维 空间 中 包 
含 所 有 实例 点 的 超 和 矩形 区 域 ， 通 过 下 面 的 递归 方法 ， 不 断 地 对 k 维 空间 
进行 切 分 ， 生 成 子 结 点 。 在 超 和 定形 区 域 〈 结 点 ) 上 选择 一 个 坐标 轴 和 在 
此 举 标 轴 上 的 一 个 切 分 点 ， 确 定 一 个 超 平面 ， 这 个 超 平 面 通过 选 定 的 切 
分 点 并 垂直 于 选 定 的 坐标 轴 ， 将 当前 超 和 矩形 区 域 切 分 为 左右 两 个 子 区 域 
《 子 结 点 ); 这 时 ， 实 例 被 分 到 两 个 子 区 域 。 这 个 过 程 直 到 子 区 域内 没 
有 实例 时 终止 (终止 时 的 结 点 为 叶 结 点 ) 。 在 此 过 程 中 ， 将 实例 保存 在 
相应 的 结 点 上 。 

通 音 ， 依 次 选择 坐标 轴 对 空间 切 分 ， 选 择 训 练 实例 点 在 选 定 华 标 轴 
上 的 中 位 数 median) 2 为 切 分 点 ， 这 样 得 到 的 kd 树 是 平衡 的 。 注 意 ， 
平衡 的 kd 树 搜索 时 的 效率 未 必 是 最 优 的 。 

下 面 给 出 构造 kd 树 的 算法 。 

算法 3.2〔 构 造 平 衡 kd 树 ) 

输入 : k 维 空间 数据 集 T 二 {x,，Xx,,...,X、}， 


输出 : kd 树 。 

(1) 开始 : 构造 根 结 点 ， 根 结 点 对 应 于 包含 T 的 k 维 空间 的 超 和 矩形 
区 域 。 

选择 x" 为 坐标 轴 ， 以 T 中 所 有 实例 的 x" 坐 标的 中 位 数 为 切 分 点 ， 将 
根 结 点 对 应 的 超 和 矩形 区 域 切 分 为 两 个 子 区 域 。 切 分 由 通过 切 分 点 并 与 华 
标 轴 xo 垂 直 的 超 平面 实现 。 

由 根 结 点 生成 深度 为 1 的 左 、 右 子 结 点 : 左 子 结 点 对 应 坐标 xo" 小 于 
切 分 点 的 子 区 域 ， 右 子 结 点 对 应 于 坐标 xz 大 于 切 分 点 的 子 区 域 。 




















将 沙 在 切 分 超 平面 上 的 实例 点 保存 在 根 结 点 。 

(2) 重复 : 对 深度 为 的 结 点 ， 选 择 x" 为 切 分 的 坐标 轴 ，1 二 
jnodlo)+1， 以 该 结 点 的 区 域 中 所 有 实例 的 x" 坐 标的 中 位 数 为 切 分 点 ， 将 
该 结 点 对 应 的 超 矩 形 区 域 切 分 为 两 个 子 区域 。 切 分 由 通过 切 分 点 并 与 坐 
标 轴 x" 垂 直 的 超 平面 实现 。 

由 该 结 点 生成 深度 为 jt1 的 左 、 右 子 结 点 ; 左 子 结 点 对 应 坐标 zo 小 
于 切 分 点 的 子 区 域 ， 右 子 结 点 对 应 坐标 xz 大 于 切 分 点 的 子 区 域 。 

将 沙 在 切 分 超 平面 上 的 实例 点 保存 在 该 结 点 。 

、(3) 直到 两 个 了 区 域 没 有 实例 存在 时 停止 。 从 而 形成 kd 树 的 区 域 
| 分 。 

例 3.2 ”给 定 一 个 二 维 空间 的 数据 集 : 

T={(2,3) ,(5,4) ,(9,6) ,(4,7)',(8,1) ,(7,2) } 
构造 一 个 平衡 kd 树 9。 

解 根 结 点 对 应 包含 数据 集 T 的 窍 形 ， 选 择 x" 轴 ，6 个 数据 点 的 x" 坐 
标的 中 位 数 是 7-， 以 平面 x* 二 7 将 空间 分 为 左 、 右 两 个 子 矩 形 ( 子 结 
点 ) ; 接着 ， 左 和 佐 形 以 x 二 4 分 为 两 个 子 矩 形 ， 右 算 形 以 x% 二 6 分 为 两 个 
I 
示 的 kd 树 。 
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图 3.3 ”特征 空间 划分 





图 3.4 ”kd 树 示例 


3.3.2 ”搜索 kd 树 


下 面 介绍 如 何 利用 kd 树 进行 k 近 邻 搜索 。 可 以 看 到 ， 利 用 kqd 树 可 以 
省 去 对 大 部 分 数据 点 的 搜索 ， 从 而 减少 搜索 的 计算 量 。 这 里 以 最 近邻 为 
例 加 以 叙述 ， 同 样 的 方法 可 以 应 用 到 k 近 邻 。 

给 定 一 个 目标 把 ， 搜 索 其 最 近邻 。 首 先 找到 包含 目标 点 的 叶 结 反 ; 
然后 从 该 叶 结 反 出 及 ， 依 次 回 退 到 父 结 点 ; 不 断 碍 找 与 目标 点 最 邻近 的 
结 点 ， 当 确定 不 可 能 存在 更 近 的 结 点 时 终止 。 这 样 搜索 就 被 限制 在 空间 
的 局 部 区 域 上 ， 效 率 大 为 提高 。 

包含 目标 点 的 叶 结 点 对 应 包含 目标 点 的 最 小 超 和 矩形 区 域 。 以 此 叶 结 
点 的 实例 点 作为 当前 最 近 点 。 目 标点 的 最 近邻 一 定 在 以 目标 点 为 中 心 并 
通过 当前 最 近 点 的 超 球 体 的 内 部 《参阅 图 3.5) 。 然 后 返回 当前 结 点 的 
父 结 点 ， 如 果 父 后 点 的 另 一 子 结 点 的 超 和 矩形 区 域 与 超 球 体 相 区， 那么 在 
相交 的 区 域内 寻找 与 目标 点 更 近 的 实例 点 。 如 果 存 在 这 样 的 点 ， 将 此 操 
作为 新 的 当前 最 近 点 。 算 法 转 到 更 上 一 级 的 父 结 点 ， 继 续 上 述 过 程 。 如 
果 父 结 反 的 妨 一 子 结 点 的 超 矩 形 区 域 与 超 球 体 不 相交 ， 或 不 存在 比 当前 
最 近 点 更 近 的 点 ， 则 停止 搜索 。 














图 3.5 ”通过 kd 树 搜索 最 近邻 


下 面 叙 述 用 kd 树 的 最 近邻 搜索 算法 。 

算法 3.3( 用 kd 树 的 最 近邻 搜索 ) 

输入 : 已 构造 的 kd 树 ;目标 点 X; 

输出 : x 的 最 近邻 。 

(1) 在 kd 树 中 找 出 包含 目标 点 x 的 叶 结 点 : 从 根 结 点 出 发 ， 递 归 地 
同 下 访问 kd 树 。 若 目 标点 x 当前 维 的 举 标 小 于 切 分 点 的 举 标 则 移动 到 
左 子 结 点 ， 否 则 移动 到 右 子 结 点 。 直 到 子 结 点 为 叶 结 点 为 止 。 

(2) 以 此 叶 结 点 为 ' :当前 最 近 点 ”。 

(3) 递归 地 向 下 同 民 ， 在 每 个 结 点 进行 以 下 操作 : 

(a) 如 果 该 结 点 保存 的 实例 点 比 当前 最 近 点 距离 目标 点 更 近 ， 则 
以 该 实例 点 为 “当前 最 近 点 ”。 

(Cb) 当前 最 近 点 定 存在 村 该 结 点 一 个 子 结 点 对 应 的 区 域 。 检 查 
该 子 结 点 的 父 结 点 的 另 一 子 结 点 对 应 的 区 域 是 否 有 更 近 的 点， 具体 地 ， 
检查 另 一 子 结 点 对 应 的 区 域 是 否 与 以 目标 点 为 球 心 、 以 目标 点 与 “当前 
成 近 点 " 问 的 由 高 为 痉 的 超 球体 相交 

如 果 相 交 ， 可 能 在 另 一 个 子 结 点 对 应 的 区 域内 存在 距 目 标点 更 近 的 
Rs 移动 到 务 一 个 子 结 丰 ， 接着 ， 递 归 地 进行 最 近邻 搜索 ; 

如 果 不 相 交 ， 同 上 回 退 。 

. (4) 当 回 退 到 根 结 点 时 ， 搜 索 结束 。 最 后 的 “当前 最 近 点 ” 即 为 x 的 
最 近邻 点 
如 果实 例 点 是 随机 分 布 的 ，kd 树 搜索 的 平均 计算 复杂 度 是 



































OUogN)， 这 里 N 是 训练 实例 数 。kd 树 更 适用 于 训练 实例 数 远 大 于 空间 维 
数 时 的 k 近 邻 搜索 。 当 空间 维 数 接近 训练 实例 数 时 ， 它 的 效率 会 迅速 下 
降 ， 几 乎 接近 线性 扫描 。 

下 面 通过 一 个 例题 来 次 明 搜索 方法 。 

例 3.3 ”给 定 一 个 如 图 3.5 所 示 的 kd 树 ， 根 结 点 为 A， 其 子 结 点 为 B， 
C3 树 上 共存 储 7 个 实例 点 ， 为 有 一 个 输入 目标 实例 点 9， 求 的 最 近 


Pp。 

解 ” 首 先 在 kd 树 中 找到 包含 点 5 的 叶 结 点 D〔 图 中 的 右 下 区 域 〉， 
以 点 D 作 为 近似 最 近邻 。 真 正 最 近邻 一 定 在 以 点 $ 为 中 心 通 过 点 D 的 圆 的 
内 部 。 然 后 返回 结 点 D 的 父 结 点 B， 在 结 点 B 的 另 一 子 结 点 FE 的 区 域内 搜 
索 最 近邻 。 结 点 E 的 区域 与 圆 不 相交 ， 不 可 能 有 最 近邻 点 。 继 续 返 回 上 
一 级 父 结 点 A， 在 结 反 A 的 男 一 子 结 反 C 的 区 域内 搜索 最 近邻 。 结 点 C 的 
区 域 与 圆 相 交 ， 该 区 域 在 圆 内 的 实例 点 有 点 E， 点 E 比 点 D 更 近 ， 成 为 新 
的 最 近邻 近似 。 最 后 得 到 点 E 是 点 5 的 最 近邻 。 


本 章 概要 


1. k 近 邻 法 是 基本 且 简 单 的 分 类 与 回归 方法 。k 近 邻 法 的 基本 做 法 
是 : 对 给 定 的 训练 实例 点 和 输入 实例 点 ， 首 先 确 定 输入 实例 点 的 k 个 最 
人 然后 利用 这 k 个 训练 实例 点 的 类 的 多 数 来 预测 输入 实 
列 点 的 类 。 

2. k 近 邻 模 型 对 应 于 基于 训练 数据 集 对 特征 空间 的 一 个 划分 。k 近 
当 训 练 集 、 踊 离 度量 、k 值 及 分 类 决策 规则 确定 后 ， 其 结果 唯 
一 确定 。 

3. kk 近邻 法 三 要 素 : 距离 度量 、k 值 的 选择 和 分 类 决策 规则 。 常 用 
的 距离 度量 是 欧 氏 距离 及 更 一 般 的 pL 距离 。k 值 小 时 ，k 近 邻 模 型 更 复 
杂 ; k 值 大 时 ，k 近 邻 模型 更 简单 。k 值 的 选择 反映 了 对 近似 误差 与 估计 
误差 之 间 的 权衡 ， 通 常 由 交叉 验证 选择 最 优 的 k。 常 用 的 分 类 决策 规则 
是 多 数 表 决 ， 对 应 于 经 验 风 险 最 小 化 。 

4. 上 近邻 法 的 实现 需要 考虑 如 何 快速 搜索 k 个 最 近邻 点 。kd 树 是 一 
种 便于 对 k 维 空间 中 的 数据 进行 快速 检索 的 数据 结构 。kd 树 是 二 叉 树 ， 
表示 对 k 维 空间 的 一 个 划分 ， 其 每 个 结 点 对 应 于 k 维 空间 划分 中 的 一 个 超 
人 利用 kd 树 可 以 省 去 对 大 部 分 数据 点 的 搜索 ， 从 而 减少 搜索 的 
L 里。 






























































继续 阅读 


k 近 邻 法 由 Cover 与 Hart 提 出 呈 。k 近 邻 法 相关 的 理论 在 文献 [2,3] 中 已 
有 论述 。k 近 邻 法 的 扩展 可 参考 文献 [4]。kd 树 及 其 他 快速 搜索 算法 可 参 
见 文 献 [5]。 关 于 kk 近邻 法 的 介绍 可 参考 文献 [2]。 


习 圳 


3.1 参照 图 3.1， 在 二 维 空间 中 给 出 实例 点 ， 夯 出 k 为 1 和 2 时 的 k 近 
邻 法 构成 的 空间 划分 ， 并 对 其 进行 比较 ， 体 会 k 值 选择 与 模型 复杂 度 及 
预测 准确 率 的 关系 。 

3.2 ”利用 例题 3.2 构 造 的 kd 树 求 点 x 二 (3,4.5)" 的 最 近邻 反 。 

3.3 ”参照 算法 3.3， 写 出 输出 为 x 的 k 近 邻 的 算法 。 
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注释 
[| kd 树 是 存储 k 维 空间 数据 的 树 结 构 ， 这 里 的 k 与 k 近 邻 法 的 k 意 义 不 同 ， 为 了 与 习惯 一 
致 ， 本 书 仍 用 kd 树 的 名 称 。 
[2] 一 组 数据 按 大 小 顺序 排列 起 来 ， 处 在 中 间 位 置 的 一 个 数 或 最 中 间 两 个 数 的 平均 值 。 
[3] 取 自 Wikipedia。 






































第 4 章 ” 朴 系 贝 叶 斯 法 


朴素 贝 叶 斯 Cnaive Bayes) 法 是 基于 贝 叶 斯 定理 与 特征 条 件 独立 假 
设 的 分 类 方法 ug。 对 于 给 定 的 训练 数据 集 ， 首 先 基于 特征 条 件 独立 假设 
学 习 输入 /输出 的 联合 概率 分 布 ， 然 后 基于 此 模型 ， 对 给 定 的 输入 xX， 逢 
用 贝 叶 斯 定理 求 出 后 验 概 率 最 大 的 输出 y。 朴 素 贝 叶 斯 法 实现 简单 ， 学 
习 与 预测 的 效率 都 很 高 ， 是 一 种 常用 的 方法 。 

本 章 扳 述 朴 素 见 叶 斯 法 ， 包 括 朴素 贝 叶 斯 法 的 学 习 与 分 类 、 杆 素 贝 
叶 斯 法 的 参数 估计 算法 。 


4.1 村 厅 贝 叶 斯 法 的 学 习 与 分 类 
4.1.1 基本 方法 


设 输入 空间 xSR'" 为 n 维 向 量 的 集合 ， 输 出 空间 为 类 标记 集合 了 = 
{c,，Cc,.….,C,}。 输 入 为 特征 向 量 xex， 输 出 为 类 标记 (class label) yey。 
XxX 是 定义 在 输入 空间 x 上 的 随机 向 量 ，Y 是 定义 在 输出 空间 了》 上 的 随机 变 
量 。P(X,Y) 是 X 和 Y 的 联合 概率 分 布 。 训 练 数据 集 

1 三 (Xi "1 » (Xx, ,> 有 Ee (xx "NN ) 1 
由 P(X,Y) 独 立 同 分 布 产 生 。 

朴 款 贝 叶 斯 法 通过 训练 数据 集 学 习 联合 概率 分 布 PIX,Y)。 只 体 地 ， 

学 习 以 下 先 验 概率 分 布 及 条 件 概率 分 布 。 先 验 概率 分 布 





P(Y=c), k=1,2,.…,K (4.1) 
条 件 概率 分 布 


P(X=x|Y=c)= P(X =x0, ,XV =x" |Y=6), k=1,2,…,K (42) 
于 是 学 习 到 联合 概率 分 布 P(X,Y)。 
条 件 概 率 分 布 P(X 二 x|Y 三 c) 有 指数 级 数量 的 参数 ， 其 估计 实际 是 不 
可 行 的 。 事 实 上 ， 假 设 x? 可 取 值 有 S 个 ，j 二 1,2,...,n，Y 可 取 值 有 K 个 ， 
wr KTS, 
那么 参数 个 数 为 上 内 。 
朴素 贝 叶 斯 法 对 条 件 概率 分 布 作 了 条 件 独立 性 的 假设 。 由 于 这 是 一 





个 较 强 的 假设 ， 朴 素 贝 叶 斯 法 也 由 此 得 名 。 有 具体 地 ， 条 件 独 立 性 假设 是 
P(X x| a c, ) P(X >. Wi ED ed x | 7 c, ) 
-=TTP(xw =x217=cl) (4.3) 
朴素 贝 叶 斯 法 实际 上 学 习 到 生成 数据 的 机 制 ， 所 以 属于 生成 模型 。 
条 件 独 立 假设 等 于 是 说 用 于 分 类 的 特征 在 类 确定 的 条 件 下 都 是 条 件 独立 
风 这 一 假设 使 朴素 贝 叶 斯 法 变 得 简单 ， 但 有 时 会 牺牲 一 定 的 分 类 ;准确 
“朴素 贝 叶 斯 法 分 类 时 ， 对 给 定 的 输入 x， 通 过 学 习 到 的 模型 计算 后 
验 概 率 分 布 PIY=c|X=X)， 将 后 验 概 率 最 大 的 类 作为 x 的 类 输出 。 后 验 
概率 计算 根据 贝 叶 斯 定理 进行 : 
P(X =x|Y .=e P=6) 
De [em Ss 
WY TO gy pp yee YP se 
将 式 (4.3) 代入 式 (4.4) 有 
P(Y=c)] PK2 =x |Y=c,) 
2 RM7=a)[T PXT = Y=0) 
这 是 朴素 贝 叶 斯 法 分 类 的 基本 公式 。 于 是 ， 朴 素 贝 叶 斯 分 类 器 可 表示 为 
P(Y=c)] | ,P(X =x217=e) 
注意 到 ， 在 式 〈4.6) 中 分 母 对 所 有 C 都 是 相同 的 ， 所 以 ， 
y=argmax P7=c， )[ | , P(X =x 7= 6 ) (4.7) 


4.1.2 ”后 验 概率 最 大 化 的 侣 义 


朴 聂 贝 叶 斯 法 将 实例 分 到 后 验 概率 最 大 的 类 中 。 这 等 价 于 期 望 风险 
最 小 化 。 假 设 选择 0-1 损 失 函 数 : 
国人 


Bl F(A 
pr 


式 中 f(X) 是 分 类 决策 函数 。 这 时 ， 期 望 风险 函数 为 
Ro (f=ELUY f(A 





(4.4) 


PY =6, |X =X)= Pe 





y= f(x)=arg max (4.6) 





期 望 是 对 联合 分 布 PCXY) 取 的 。 由 此 取 条 件 期 记 
Rs) = Ex PL NIP |X) 

为 了 使 期 望 风险 最 小 化 ， 只 需 对 Xx 逐个 极 小 化 ， 由 此 得 到 : 
f(X)= argmip > Le, y)P(c, |X =x) 


=arg min S P(y#*c, |X =x) 
a 
=arg min(] —P(y=¢c: | XX =x)) 


=argmax P(y=c, |X =x) 
Vey 


这 样 一 来 ， 根 据 期 望 风 险 最 小 化 准则 就 得 到 了 后 验 概率 最 大 化 准则 
f(x)=argmax P(c, |X =x) 


即 朴 系 贝 叶 斯 法 所 采用 的 原理 。 


4.2 村 素 贝 叶 斯 法 的 参数 估计 


4.2.1 极 大 似 然 估计 


在 朴 系 贝 叶 斯 法 中 ， 学 习 意 味 着 估计 P(Y 二 c,) 和 和 P(X? 二 x%Y 二 c,)。 
可 以 应 用 极 大 似 然 估 计 法 估计 相应 的 概率 。 先 验 概率 P(Y==c) 的 极 大 似 
然 估计 是 


py=c= 气 k=1 2 K (4.8) 


没 第 } 个 特征 wv 可 能 取信 的 集合 为 (a.a,..8,}， 条 件 概 来 PQ 二 ajY 二 c) 
的 极 大 似 然 估计 是 


N 

2 1 (5 “= qi i = Cx ) 
a i a 一 一 
I(y, =C) 


~N 
i 
=] 


1 


j=1,2,,n; [=1,2,.,S8,; k=1,2,.…,K (4.9) 


> (7) 入 和。 、 AAA 。 人 大和。 人 人 和 和 
式 中 ,和 是 第 i 个 样本 的 第 j 个 特征 ，a 是 第 j 个 特征 可 能 取 的 第 ] 个 值 ; II 
为 指示 函数 。 


,2:27 2 让 大 全 


下 面 给 出 朴素 贝 叶 斯 法 的 学 习 与 分 类 算法 。 

算法 4.1 (朴素 贝 叶 斯 算法 (naive Bayes algorithm) ) 

答 人 入 : 训练 数据 T 二 {Cx， y), (xsy) (xuwyw)}， 其 中 
入 二 (26 入 ) ， 区 ?是 第 个 样本 的 第 j 个 特征 ， 双 ?eta sa， 
…as}，3 是 第 j 个 特征 可 能 取 的 第 个 值 ，j 二 1,2,...,n， 1 二 1,2,.…,S,, 
yefc，c…cdj; 实例 x; 

输出 : 实例 x 的 分 类 。 

(1) 计算 先 验 概率 及 条 件 概率 


N 
I(y, =¢,) 


I k=1,2,..…,K 





N 
> 天 太一 人 一 二】 
P( 下 ”= 全 | 了 =)= 一 一 一 
> 770 = cl) 
i=] 


j=1,2,.…,n; [=1,2,…,5,; k=1,2,:…,K 
(2) 对 于 给 定 的 实例 x 二 (x%,x®,.….,x")*"， 计 算 


P(Y=6)| [P(X =x Y=6,), 压 三 肥大 
j=] 


(3) 确定 实例 x 的 类 
y=argmax P(Y = IPCXT =x0 Y=6,) 加 


1 =] 


例 4.1 试 由 表 4.1 的 训练 数据 学 习 一 个 朴素 贝 叶 斯 分 类 器 并 确定 x 二 
(2,S) 的 类 标记 y。 表 中 X%，X® 为 特征 ， 取 值 的 集合 分 别 为 A 二 {1,2,3}， 
A, 二 {S，M,L}，Y 为 类 标记 ，YeEC=={1,-1}。 


表 4.1 训练 数据 


] 2 3 4 5 6 7 8s 9 10 11 bo 13: 4 ‘13 
> ] ] 1 | ] 2 2 a 2 2 3 3 3 总 3 
XY Ss M MM 5 S Ss M MM &£ L L M MM L L 
】} -| 一 | | ] -| -1 -l ] | | ] l | | -| 


解 ” 根 据 算法 4.1， 由 表 4.1， 容 易 计算 下 列 概率 : 


9 6 
PCY=D)= 二 ，PZY=-D= 一 
a i 


2 3 4 
P(X =1 Y=] Nar P(XV=2 7=1 二 二 ， P(XM"=3 Y=] 一 一 
( les A sds A le ee 


P(X® =L|Y=1)=4 
9 


ol 


Pm = S|Y=D=5 P(X =M|Y=1)= 


3 2 ] 
P(UYU=1 Y =-1)= 二 ， P(Y =7? = 一 J) = 一 ， P(XO =3 Y=—]l 一 一 
( | 6 ( IY 6 | ) 6 


, 3 2 
P(X®™ =SI7Y=-D)=3， P(X™ =M|Y=-D)=3, P(X® =LIY=-D)== 


对 于 给 定 的 x 二 (2,5)" 计 算 : 


2 ] 
P(Y=1)P(X® =2|Y=1)P(X® =SI7=1D)= 一 .二 .二 = 一 
( )P( | )P( | 了 = 有 TT 
tN RR 
Ls; 6 © 1 
因为 P(Y 二 -1)P(X" 二 2|lY 二 -1)P(X®% 二 SIY 二 -1) 最 大 ， 所 以 y= 二 -1。 


4.2.3 ” 贝 叶 斯 估计 


用 极 大 似 然 估计 可 能 会 出 现 所 要 估计 的 概率 值 为 0 的 情况 。 这 时 会 
影响 到 后 验 概率 的 计算 结果 ， 使 分 类 产生 偏差 。 解 决 这 一 问题 的 方法 是 
采用 贝 叶 斯 估计 。 有 共 体 地 ， 条 件 概 率 的 贝 叶 斯 估计 是 


~N 
和 了 TQ 三 语 议 =C,)+41 
P(X =a,| 了 =c， 一 一 (4.10) 


2 =c.)+5,4 


式 中 X20。 等 价 于 在 随机 变量 各 个 取 值 的 频数 上 赋予 一 个 正 数 1>0。 当 4 
一 0 时 就 是 极 大 似 然 估 计 。 和 常 取 4 三 1， 这 时 称 为 拉 普 拉 斯 平滑 〈Laplace 
smoothing) 。 显 然 ， 对 任何 ] 王 12,….,S， 开 三 12, .区 ， 有 

成 [本 

晤 


一 
{=} 
表明 式 〈4.10) 确 为 一 种 概率 分 布 。 同 样 ， 先 验 概率 的 贝 叶 斯 估计 是 


V1 =c)+4 
局 7 了 = co)= 半 一 一 一 4.11 
ic N+KA Ge 
例 4.2 ”问题 同 例 4.1， 按 照 拉 普 拉 斯 平滑 估计 概率 ， 即 取 4 三 1。 
解 A 二 {1,2,3}，A, 二 {S,M,L}，C 二 {1,-1}。 按 照 式 (4.10) 和 式 
(4.11) 计算 下 列 概率 : 


PlY=D)= 广 ， 0 





7 
Mol. PX" =2|7=D) = P(XV =3| 了 =D= 之 
12 12 12 
P(X ”=S|Y =D)= 去 ， P(XY =MI7= D= 石 ， P(X =LIY=D= 二 
a PAXV=2)7=-1)=2, P(X = 3|Y i 
9 9 9 


PCX =SIY=-D)=5, PCX =MIY=-)=5, P(X =LIY=-D=5 
对 于 给 定 的 x 二 (2,S)" 计 算 : 
P(Y=1)P(XM=2|Y=1)P(X® =S|Y=1)=—.—. 二 = 一 =0.0327 


P(Y=-1)P(X" =2|Y SN 





由 于 P(Y 二 -1)P(X"= 二 2|Y 二 -1)P(X®?= 二 SIY 二 -1) 最 大 ， 所 以 y= 二 -1。 


本 前 概 要 


1. 朴素 贝 叶 斯 法 是 典型 的 生成 学 习 方 法 。 生 成 方法 由 训练 数据 学 
习 联 合 概 率 分 布 P(X,Y)， 然 后 求 得 后 验 概率 分 布 P(Y|X)。 上 有 具体 来 说 ， 利 
用 训练 数据 学 习 P(X|Y) 和 P(Y) 的 估计 ， 得 到 联合 概率 分 布 : 
P(X,Y)=P(Y)P(X|Y) 
概率 估计 方法 可 以 是 极 大 似 然 估计 或 贝 叶 斯 估计 : 
2. 朴素 贝 叶 斯 法 的 基本 假设 是 条 件 独立 性 ， 
P[ | 天 二 


相关 攻克 se Vi) 
=] 


这 是 一 个 较 强 的 假设 。 由 于 这 一 假设 ， 模 型 包含 的 条 件 概率 的 数量 大 为 
减少 ， 朴 素 贝 叶 斯 法 的 学 习 与 预测 大 为 简化 。 因 而 朴素 贝 叶 斯 法 高 效 ， 
旦 易于 实现 。 其 缺点 是 分 类 的 性 能 不 一 定 很 高 。 

朴素 贝 叶 斯 法 利用 贝 叶 斯 定理 与 学 到 的 联合 概率 模型 进行 分 类 
预测 。 











PRY) EOYIRAXID) 
P(X) MYYPCEIY) 
- 
将 输入 x 分 到 后 验 概率 最 大 的 类 y。 
y=argmax P(Y = c， )[ | P(X,=x" |Y=6) 
6 J 


RAYA)= 








后 验 概率 最 大 等 价 于 0-1 损 失 函 数 时 的 期 望 风险 最 小 化 。 
继续 阅读 
梓 素 贝 叶 斯 法 的 介绍 可 见 文 献 [L.2]。 朴 素 贝 叶 斯 法 中 假设 输入 变量 


都 是 条 件 独立 的 ， 如 果 假 设 它 们 之 间 存 在 概率 依存 关系 ， 模 型 就 变 成 了 
贝 叶 斯 网 络 ， 参 见 文献 [3]。 





习题 


4.1 用 极 大 似 然 估计 法 推出 朴素 贝 叶 斯 法 中 的 概率 估计 公式 
(4.8) 及 公式 (4.9) 。 
4.2 用 贝 叶 斯 估计 法 推出 朴素 贝 叶 斯 法 中 的 概率 估计 公式 〈4.10) 


及 公式 (4.11) 。 
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注释 
加 注意 : 朴素 贝 叶 斯 法 与 贝 叶 斯 估计 (Bayesian estimation〉 是 不 同 的 概念 。 

















第 5 革 ”次 案 树 


决策 树 (decision tree) 是 一 种 基本 的 分 类 与 回归 方法 。 本 章 主 要 讨 
论 用 于 分 类 的 决策 树 。 决 策 树 模 型 呈 树 形 结 构 ， 在 分 类 问题 中 ， 表 示 基 
于 特征 对 实例 进行 分 类 的 过 程 。 它 可 以 认为 是 if-then 规 则 的 集合 ， 也 可 
以 认为 是 定义 在 特征 空间 与 类 空间 上 的 条 件 概率 分 布 。 其 主要 优点 是 模 
型 具有 可 读 性 ， 分 类 速度 快 。 学 习 时 ， 利 用 训练 数据 ， 根 据 损失 函数 最 
小 化 的 原则 建立 决策 树 模 型 。 预 测 时 ， 对 新 的 数据 ， 利 用 决策 树 模 型 进 
行 分 类 。 决 策 树 学 习 通 和 常 包括 3 个 步 又 ， 特征 选择 、 决 策 树 的 生成 和 决 
策 树 的 修剪 。 这 些 决策 树 学 习 的 思想 主要 来 源 于 由 Quinlan 在 1986 年 提 
出 的 ID3 算 法 和 1993 年 提出 的 C4.5 算 法 ， 以 及 由 Breiman 等 人 在 1984 年 提 
出 的 CART 算 法 。 

本 章 首 先 介 绍 决 策 树 的 基本 概念 ， 然 后 通过 ID3 和 C4.5 介 绍 特征 的 
选择 、 决 策 树 的 生成 以 及 决策 树 的 修剪 ， 最 后 介绍 CART 算 法 。 


5.1 决策 树 模 型 与 学 习 
5.1.1 决策 树 模型 


定义 5.1《〈 决 策 树 ) ”分 类 决策 树 模 型 是 一 种 插 述 对 实例 进行 分 类 
的 树 形 结构 。 决 策 树 由 结 点 Cnode) 和 有 癌 边 〈directed ”edge) 组 成 。 
结 点 有 两 种 类 型 : 内 部 结 点 (internal node) 和 叶 结 点 (leaf node) 。 内 
部 结 点 表示 一 个 特征 或 属性 ， 叶 结 点 表示 一 个 类 ，。 

用 决策 树 分 类 ， 从 根 结 点 开始 ， 对 实例 的 某 一 特征 进行 测试 ， 根 据 
测试 结果 ， 将 实例 分 配 到 其 子 结 点 ， 这 时 ， 每 一 个 子 结 点 对 应 着 该 特征 
的 一 个 取 值 。 如 此 递归 地 对 实例 进行 测试 并 分 配 ， 直 至 达到 叶 结 点 。 最 
后 将 实例 分 到 叶 结 点 的 类 中 。 

人 图 中 圆 和 方 框 分 别 表 示 内 部 结 点 和 
HT 结 凤 。 





A 


图 5.1 决策 树 模型 
5.1.2 ”决策 树 与 让 then 规 则 


可 以 将 决策 树 看 成 一 个 让 then 规 则 的 集合 。 将 决策 树 转 换 成 让 then 
规则 的 过 程 是 这 样 的 : 由 决策 树 的 根 结 氮 到 叶 结 点 的 每 一 条 路 径 构建 一 
条 规则 ;， 路径 上 内 部 结 点 的 特征 对 应 着 规则 的 条 件 ， 而 叶 结 点 的 类 对 应 
着 规则 的 结论 。 决 策 树 的 路 径 或 其 对 应 的 if-then 规 则 集合 具有 一 个 重要 
的 性 质 : 互 斥 并 且 完 备 。 这 惑 是 说 ， 每 一 个 实例 都 被 一 条 路 径 或 一 条 规 
则 所 窗 盖 ， 而 且 只 被 一 条 路 人 径 或 一 条 规则 所 者 盖 。 这 里 所 请 窗 盖 是 指 实 
例 的 特征 与 路 径 上 的 特征 一 致 或 实例 满足 规则 的 条 件 。 


5.1.3 ”决策 树 与 条 件 概率 分 布 


决策 树 还 表示 给 定 特 征 条 件 下 类 的 条 件 概 率 分 布 。 这 一 条 件 概 率 分 
布 定 义 在 特征 空间 的 一 个 划分 〈partition) 上 。 将 特征 空间 划分 为 互 不 
相交 的 单元 (cell) 或 区 域 (region) ， 并 在 每 个 单元 定义 一 个 类 的 概率 
分 布 就 构成 了 一 个 条 件 概 率 分 布 。 决 策 树 的 一 条 路 径 对 应 于 划分 中 的 一 
个 单元 。 决 策 树 所 表示 的 条 件 概 率 分 布 由 各 个 单元 给 定 条 件 下 类 的 条 件 
概率 分 布 组 成 。 假 设 X 为 表示 特征 的 随机 变量 ，Y 为 表示 类 的 随机 变 
量 ， 那 么 这 个 条 件 概率 分 布 可 以 表示 为 P(Y|X)。X 取 值 于 给 定 划 分 下 单 
元 的 集合 ，Y 取 值 于 类 的 集合 。 各 叶 结 点 (单元 ) 上 的 条 件 概 率 往 往 偏 
癌 某 一 个 类 ， 即 属于 某 一 类 的 概率 较 大 。 决 策 树 分 类 时 将 该 结 点 的 实例 
强行 分 到 条 件 概率 大 的 那 一 类 去 。 

图 5.2 (a) 示意 地 表示 了 特征 空间 的 一 个 划分 。 图 中 的 大 正方 形 表 














示 特 征 空间 。 这 个 大 正方 形 被 看 干 个 小 矩形 分 割 ， 每 个 小 窍 形 表示 一 个 
单元 。 特 征 空间 划分 上 的 单元 构成 了 一 个 集合 ，X 取 值 为 单元 的 集合 。 
为 简单 起 见 ， 假 设 只 有 两 类 : 正 类 和 人 负 类 ， 即 Y 取 值 为 +1 和 -1。 小 矩形 
中 的 数字 表示 单元 的 类 。 图 5.2(b) 示意 地 表示 特征 空间 划分 确定 时 ， 
特征 〈 单 元) 给 定 条 件 下 类 的 条 件 概 率 分 布 。 图 5.2(b)〉 中 条 件 概 率 分 
布 对 应 于 图 5.2〈a) 的 划分 。 当 茶 个 单元 c 的 条 件 概率 满足 PC(Y 三 +H|IX 王 
c>0.5 时 ， 则 认为 这 个 单元 属于 正 类 ， 即 落 在 这 个 单元 的 实例 都 被 视 为 
正 例 。 图 5.2〈c) 为 对 应 于 图 5.2 (b) 中 条 件 概率 分 布 的 决策 树 。 








al | x(1) 
(a) 特征 空间 划分 
P(Y=+1|X ) 





(b) 条 件 概 率 分 布 





xD< al X(D>GQi 


(c) 决策 树 
图 5.2 ”决策 树 对 应 于 条 件 概率 分 布 


5.1.4 决策 树 学 习 


决策 树 学 习 ， 假 设 给 定 训练 数据 集 
D = to » 1 上 (x, + .2 jy (xX "nN ) } 


eR Nn}MT *# ~ 

其 中 ,x 二 ( 蕉 三 (对 庆 和) WW .6 站 :为 输入 实例 (特征 向 
量 ) ,n 为 特征 个 数 ，ye{1,2,..K} 为 类 标记 ，i 二 1,2,...,N，N 为 样本 容 
量 ， 学 习 的 目标 是 根据 给 定 的 训练 数据 集 构建 一 个 决策 树 模型 ， 使 它 能 
够 对 实例 进行 正确 的 分 类 。 

决策 树 学 习 本 质 上 是 从 训练 数据 集中 归纳 出 一 组 分 类 规则 。 与 训练 
数据 集 不 相 矛 盾 的 决策 树 《〈 即 能 对 训练 数据 进行 正确 分 类 的 决策 树 ) 可 
能 有 多 个 ， 也 可 能 一 个 也 没有 。 我 们 需要 的 是 一 个 与 训练 数据 矛 拓 较 小 
的 决策 树 ， 同 时 具有 很 好 的 泛 化 能 力 。 从 另 一 个 角度 看 ， 决 策 树 学 习 是 
由 训练 数 据 集 估计 条 件 概率 模型 。 菇 于 特征 空间 划分 的 类 的 条 件 概率 模 
型 有 无 穷 多 个 。 我 们 选择 的 条 件 概率 模型 应 该 不 仅 对 训练 数据 有 很 好 的 
拟 合 ， 而 且 对 未 知 数据 有 很 好 的 预测 。 

决策 树 学 习 用 损失 函数 表示 这 一 目标 。 如 下 所 述 ， 决 策 树 学 习 的 损 
失 函 数 通 常 是 正则 化 的 极 大 似 然 函 数 。 决 策 树 学 习 的 策略 是 以 损失 函数 
为 目标 函数 的 最 小 化 。 

当 损失 函数 确定 以 后 ， 学 习 问题 就 恋 为 在 损失 函数 意义 下 选择 最 优 
决策 树 的 问题 。 因 为 从 所 有 可 能 的 决策 树 中 选取 最 优 决策 树 是 NP 完 全 























问题 ， 所 以 现实 中 决策 树 学 习 算 法 通常 采用 启发 式 方法 ， 近 似 求解 这 一 
最 优化 问题 。 这 样 得 到 的 决策 树 是 次 最 优 (sub-optimal) 的 。 

决策 树 学 习 的 算法 通常 是 一 个 递归 地 选择 最 优 特 征 ， 并 根据 该 特征 
对 训练 数据 进行 分 割 ， 使 得 对 各 个 子 数据 集 有 一 个 最 好 的 分 类 的 过 程 。 
这 一 过 程 对 应 着 对 特征 空间 的 划分 ， 也 对 应 着 决策 树 的 构建 。 开 始 ， 构 
建 根 结 点 ， 将 所 有 训练 数据 都 放 在 根 结 点 。 选 择 一 个 最 优 特征 ， 按 照 这 
一 特征 将 训练 数据 集 分 割 成 子 集 ， 使 得 各 个 子 集 有 一 个 在 当前 条 件 下 最 
好 的 分 类 。 如 果 这 些 子 集 已 经 能 够 被 基本 正确 分 类 ， 那 么 构建 叶 结 点 ， 
并 将 这 些 子 集 分 到 所 对 应 的 叶 结 点 中 去 ; 如 果 还 有 子 集 不 能 被 基本 正确 
分 类 ， 那 么 就 对 这 些 子 集 选 择 新 的 最 优 特征 ， 继 续 对 其 进行 分 割 ， 构 建 
相应 的 结 点 。 如 此 递归 地 进行 下 去 ， 直 至 所 有 训练 数据 子 集 被 基本 正确 
分 类 ， 或 者 没有 合适 的 特征 为 止 。 最 后 每 个 子 集 都 被 分 到 叶 结 点 上 ， 即 
都 有 了 明确 的 类 。 这 就 生成 了 一 棵 决策 树 。 

以 上 方法 生成 的 决策 树 可 能 对 训练 数据 有 很 好 的 分 类 能 力 ， 但 对 未 
知 的 测试 数据 却 未 必 有 很 好 的 分 类 能 力 ， 即 可 能 发 生 过 拟 合 现 象 。 我 们 
需要 对 已 生成 的 树 目 下 而 上 进行 剪 校 ， 将 树 变 得 更 简单 ， 从 而 使 它 具 有 
更 好 的 泛 化 能 力 。 具 体 地 ， 束 是 去 挥 过 于 细 分 的 叶 结 点 ， 使 其 回 退 到 父 
结 点 ， 其 至 更 高 的 结 点 ， 然 后 将 父 结 点 或 更 高 的 结 点 改 为 新 的 叶 结 点 。 

如 果 特 征 数量 很 多 ， 也 可 以 在 决策 树 学 习 开 始 的 时 候 ， 对 特征 进行 
选择 ， 只 留 下 对 训练 数据 有 足够 分 类 能 力 的 特征 。 

可 以 看 出 ， 决 策 树 学 习 算 法 包含 特征 选择 、 决 策 树 的 生成 与 决策 树 
的 剪 校 过 程 。 由 于 雇 策 树 表 示 一 个 条 件 概率 分 布 ， 所 以 深浅 不 同 的 决策 
树 对 应 着 不 同 复杂 度 的 概率 模型 。 诀 策 树 的 生成 对 应 于 模型 的 局 部 选 
择 ， 决 策 树 的 前 校对 应 于 模型 的 全 局 选择 。 决 策 树 的 生成 只 考虑 局 部 最 
优 ， 相 对 地 ， 决 策 树 的 前 校 则 考虑 全 局 最 优 。 

决策 树 学 习 常 用 的 算法 有 ID3、C4.5 与 CART， 下 面 结合 这 些 算 法 分 
别 叙 述 诀 策 树 学 习 的 特征 选择 、 决 策 树 的 生成 和 剪 杭 过 程 。 


5.2 ”特征 选择 
5.2.1 ”特征 选择 问题 
特征 选择 在 于 选取 对 训练 数据 具有 分 类 能 力 的 特征 。 这 样 可 以 提高 
决策 树 学 习 的 效率 。 如 果 利 用 一 个 特征 进行 分 类 的 结果 与 随机 分 类 的 结 


果 没 有 很 大 差别 ， 则 称 这 个 特征 是 没有 分 类 能 力 的 。 经 验 上 扔 掉 这 样 的 
特征 对 决策 树 学 习 的 精度 影响 不 大 。 通 常 特征 选择 的 准则 是 信息 增益 或 























信息 增益 比 。 

首先 通过 一 个 例子 来 说 明 特 征 选择 问题 。 

例 5.19 表 5.1 是 一 个 由 15 个 样本 组 成 的 贷款 申请 训练 数据 。 数 据 包 
括 贷款 申请 人 的 4 个 特征 属性) : 第 1 个 特征 是 年 龄 ， 有 3 个 可 能 值 : 
青年， 中 年 ， 老 年 ;第 2 个 特征 是 有 工作 ， 有 2 个 可 能 值 : 是 ， 人 否 ; 第 3 
个 特征 是 有 自己 的 房子 ， 有 2 个 可 能 值 : 是 ， 否 ;第 4 个 特征 是 信贷 情 
况 ， 有 3 个 可 能 值 : 非 党 好， 好， 一般 。 表 的 最 后 一 列 是 类 别 ， 是 售后 
意 贷 款 ， 取 2 个 值 : A 否 。 


表 5.1 贷款 申请 样本 数据 表 











ID 年 龄 有 工作 有 自己 的 房子 信贷 情况 类 别 
1 让 竺 从 否 般 军 
2 下 入 盏 耕 好 得 
3 育 千 是 从 好 是 
4 上 名 是 是 般 是 
5 吉 年 从 耕 - 般 行 
6 中 年 从 省 般 在 
7 中 年 百 否 好 个 
8 中 年 是 是 好 是 
9 中 年 百 是 恬 常 好 是 
10 中 年 从 是 非常 好 是 
11 老年 fy fa 非 凋 好 是 
12 老年 a 是 好 是 
13 老年 是 在 好 是 
14 老年 足 否 非常 好 是 
15 老年 f 和 - 般 从 


希望 通过 所 给 的 训练 数据 学 习 一 个 贷款 申请 的 决策 树 ， 用 以 对 未 来 
的 贷款 申请 进行 分 类 ， 即 当 新 的 客户 提出 贷款 申请 时 ， 根 据 申 请 人 的 特 
征 利用 决策 树 诀 定 是 否 批准 贷款 申请 。 

特征 选择 是 决定 用 哪个 特征 来 划分 特征 空间 。 

图 5.3 表 示 从 表 5.1 数 据 学 习 到 的 两 个 可 能 的 决策 树 ， 分 别 由 两 个 不 
同 特征 的 根 结 点 构成 。 图 5.3〈a) 所 示 的 根 结 点 的 特征 是 年 龄 ， 有 3 个 取 
值 ， 对 应 于 不 同 的 取 值 有 不 同 的 子 结 点 。 图 5.3 (b) 所 示 的 根 结 点 的 特 
征 是 有 工作 ， 有 2 个 取 值 ， 对 应 于 不 同 的 取 值 有 不 同 的 子 结 点 。 两 个 决 
策 树 都 可 以 从 此 延续 下 去 。 问 题 是 ， 完 竟 选择 哪个 特征 更 好 些 ? 这 就 要 
求 确 定 选 择 特征 的 准则 。 直 观 上 ， 如 果 一 个 特征 具有 更 好 的 分 类 能 力 ， 
或 者 说 ， 按 照 这 一 特征 将 训练 数据 集 分 割 成 子 集 ， 使 得 各 个 子 集 在 当前 











条 件 下 有 最 好 的 分 类 ， 那 么 就 更 应 该 选择 这 个 特征 。 信 息 增益 
oiion gain) 就 能 够 很 好 地 表示 这 一 直观 的 准则 。 


年 龄 有 工作 






青年 
用 后 是 


(a) (b) 
图 5.3 ”不同 特 征 决定 的 不 同 决策 树 


5.2.2 车 四 增益 


为 了 便于 说 明 ， 先 给 出 炳 与 条 件 燃 的 定义 。 
在 信息 论 与 概率 统计 中 ， 粮 (entropy〉 是 表示 随机 变量 不 确定 性 的 
度量 。 设 X 古 一 个 取 有 限 个 值 的 离散 随机 变量 ， 其 概率 分 布 为 
P(X=x)=p,, i=1,2,.…,n 
则 随机 变量 Xx 的 炳 定义 为 


H(X)=—2p;logp, (5.1) 
i=] 
在 式 (5.1) 中 ， 若 p= 二 0， 则 定义 0log0 二 0。 通 常 ， 式 (5.1〉 中 的 对 数 
以 2 为 底 或 以 e 为 底 〈 自 然 对 数 ) ， 这 时 灼 单位 分 别称 作 比 特 (bit) 或 
纳 特 nat) 。 由 定义 可 知 ， 燃 只 依赖 于 X 的 分 布 ， 而 与 X 的 取 值 无 关 ， 
所 以 也 可 将 X 的 炉 记 作 H(p)， 即 








H(D= > logp, (3.2) 
烂 越 大 ， 随机 变量 的 不 确定 性 就 越 大 。 从 定义 可 验证 
0 H(p) logn (5.3) 


当 随 机 变量 只 取 两 个 值 ， 例 如 1，0 时 ， 即 XX 的 分 布 为 
PX=D)=ps P(X =0)=1l-—p:s 0<p<l1 
焙 为 
H(p)= -plog, p-(l- p)log,(l— 7) (5.4) 
这 时 ， 粹 H(p) 随 概率 p 变 化 的 曲线 如 图 5.4 所 示 (单位 为 比特 〉。 


0.5 1.0 


p 


图 5.4 ”分 布 为 贝 努 利 分 布 时 炳 与 概率 的 关系 


当 p 二 0 或 p 二 1 时 H(p) 二 0， 随 机 变量 完全 没有 不 确定 性 。 当 p 二 0.5 
时 ，H(p) 二 1， 人 取 值 最 大 ， 随 机 变量 不 确定 性 最 大 。 
设 有 随机 变量 (X,Y)， 其 联合 概率 分 布 为 
P(X=X,Y=y)= py» i=1,2,,n; j=1,2,…,m 
条 件 业 H(Y|X) 表 示 在 已 知 随机 变量 X 的 条 件 下 随机 变量 Y 的 不 确定 性 。 
随机 变量 X 给 定 的 条 件 下 随机 变量 Y 的 条 件 业 (conditional entropy ) 
H(Y|X)， 定 义 为 X 给 定 条 件 下 Y 的 条 件 概率 分 布 的 燃 对 X 的 数学 期 望 


H(YIX)=Y pH(OY|X=x) (5.5) 


i=] 








这 里 ,p= 二 P(X=x), i=1,2,...,n。 

当 米 和 条 件 人 中 的 概率 由 数据 估计 特别 是 极 大 似 然 估 计 〉 得 到 
时 ， 所 对 应 的 炳 与 条 件 业 分 别称 为 经 验 (empirical entropy) 和 经 验 条 
件 (empirical conditional entropy) 。 此 时 ， 如 果 有 0 概率 ， 令 0log0 二 
0。 

信息 增益 〈information gain) 表示 得 知 特征 又 的 信息 而 使 得 类 Y 的 信 
恩 的 不 确定 性 减少 的 程度 。 

定义 5.2( 信 息 增益 ) ”特征 A 对 训练 数据 集 D 的 信息 增益 g(D,A)， 
人 
之 差 ) 邯 

g(D,4)= H(D)- H(D|A4) (5.6) 

一 般 地 ， 炳 H(Y) 与 条 件 烂 H(Y|X) 之 差 称 为 互信 息 (mutual 
information〉。 决 策 树 学 习 中 的 信息 增益 等 价 于 训练 数据 集中 类 与 特征 
的 互信 息 。 





决策 树 学 习 应 用 信息 增益 准则 选择 特征 。 给 定 训练 数据 集 D 和 特征 
A， 经 验 烂 H(D) 表 示 对 数据 集 D 进 行 分 类 的 不 确定 性 。 而 经 验 条 件 炉 
H(DI|A) 表 示 在 特征 A 给 定 的 条 件 下 对 数据 集 D 进 行 分 类 的 不 确定 性 。 那 
和 它们 的 差 ， 即 信息 增益 ， 就 表示 由 于 特征 A 而 使 得 对 数据 集 DD 的 分 类 
的 不 确定 性 减少 的 程度 。 显 然 ， 对 于 数据 集 D 而 言 ， 信 息 增益 依赖 于 特 
征 ， 不 同 的 特征 往往 具有 不 同 的 信息 增益 。 信 息 增益 大 的 特征 具有 更 强 


的 分 类 能 力 。 


根据 信息 增益 准则 的 特征 选择 方法 是 : 对 训练 数据 集 ( 或 子 集 ) 
D， 计 算 其 每 个 特征 的 信息 增益 ， 并 比较 它们 的 大 小 ， 选 择 信息 增益 最 
大 的 特征 。 

设 训练 数据 集 为 D，|D| 表 示 其 样本 容量 ， 即 样本 个 数 。 设 有 K 个 类 

















Cl=ID| 、 
C ，k 二 1,2,..,K，|C | 为 属于 类 C 的 样本 个 数 ， 安 “11 D1， 没 特征 A 有 n 
个 不 同 的 取 值 {a,，a,.…a}， 根 据 特 征 A 的 取 值 将 D 划 分 为 a 个 子 集 D,D， 


| 二 | 
D，I| 为 D 的 样本 个 数 ， 名 | 马 1=121， 记 子 集 D 中 属于 类 C 的 样本 的 


集合 为 D,， 即 D,=DhnC,，ID,| 为 D, 的 样本 个 数 。 于 是 信息 增益 的 算法 如 
下 : 

算法 5.1〔 信 息 增 益 的 算法 ) 

输入 : 训练 数据 集 D 和 特征 A; 

输出 : 特征 A 对 训练 数据 集 D 的 信息 增益 g(D,A)。 

(1) 计算 数据 集 DD 的 经 验 粹 H(D) 














-|C, | | Ci 
H(D)=-— tlog, 一 (5.7) 
ID 10 
(2) 计算 特征 A 对 数据 集 DD 的 经 验 条 件 炳 H(D|A) 
| a DE | ID, | 
HD YY HD (5.8) 
Di DI iD | “TD 
(3) 计算 信息 增益 
g(D,A)= H(D)- H(D|A) (5.9) 四 





例 5.2 ”对 表 5.1 所 给 的 训练 数据 集 D， 根 据 信 息 增 得 准则 选择 最 优 
等 征 。 
解 ” 首 先 计 算 经 验 烂 H(D)。 


9 尖 泡 6 
H(D)=-—log,—-——log,— =0.97] 
0 13 S21s 13 2 


然后 计算 各 特征 对 数据 集 D 的 信息 增益 。 分 别 以 A，A,，A,，A 表 
示 年 龄 、 有 工作 、 有 自己 的 房子 和 信贷 情况 4 个 特征 ， 则 
ta 





5 5 5 
DAYysHDI-| HI HY HD 
g(D,4,) (D)-| 言 4(D)+ 语 (D)+ EH ) 
5 2 3 
Bd 
吉 J | 


+ -os 3 -Sog, 2]+E(-4iog, -os 

I 9 3 Sy 9 WB $3 
=0.971—0.888 = 0.083 

这 里 D,，D,,， DD 分别 是 D 中 A, 年龄) 取 值 为 青年 、 中 年 和 老年 的 样本 

子 集 。 类 似 地 ， 


(2 


£2(D,4,)= HD)-| HD)+ EHD. ) 


=0.971— 二 x0+ 间 [- 吉 log, 夺 ~- 避 1ogs =0.324 
15 I Ed “9 
(3) 
6 1 - 6 
D,A)=0.971 -|—x0+—|——log,———log,— 
2\ 3) EE | 9 “有 古 3 


=0.971—0.551=0.420 
(4) 


&g(D,A,)=0.971—0.608 = 0.363 


最 后 ， 比 较 各 特征 的 信息 增益 值 。 由 于 特征 A,( 有 自己 的 房子 ) 的 
信息 增益 值 最 大 ， 所 以 选择 特征 A, 作 为 最 优 特 征 。 


5.2.3 ”信息 增益 比 


言 恩 增 荔 值 的 大 小 是 相对 于 训练 数据 集 而 言 的 ， 并 没有 绝对 音义 。 
在 分 类 问题 困难 时 ， 也 就 是 说 在 训练 数据 集 的 经 验 精 大 的 时 候 ， 信 息 增 
敬 值 会 偏 大 。 反 之 ， 信 息 增益 值 会 仿 小 。 使 用 信息 增 荔 比 (information 
gain ratio) 可 以 对 这 一 问题 进行 校正 。 这 是 特征 选择 的 力 一 准则 。 








定义 5.3《〈《 信 息 增 益 比 ) ”特征 A 对 训练 数据 集 D 的 信息 增益 比 
g(D,A) 定 义 为 其 信息 增益 g(D,A) 与 训练 数据 集 D 的 经 验 业 H(D) 之 比 : 


g,(D, A)= (5.10) 


5.3” 决 东 树 的 生成 


本 节 将 介绍 决策 树 学 习 的 生成 算法 。 首 先 介绍 ID3 的 生成 算法 ， 然 
后 再 介绍 C4.5 中 的 生成 算法 。 这 些 都 是 诀 策 树 学 习 的 经 典 算法 。 


5.3.1 ID3 算 法 


ID3 算 法 的 核心 是 在 决策 树 各 个 结 点 上 应 用 信息 增益 准则 选择 特 
征 ， 弟 归 地 构建 决策 树 。 具 体 方法 是 : 从 根 结 点 (root node) 开始 ， 对 
结 点 计算 所 有 可 能 的 特征 的 信息 增益 ， 选 择 信 息 增 益 最 大 的 特征 作为 结 
点 的 特征 ， 由 该 特征 的 不 同 取 值 建立 子 结 点 ; 再 对 子 结 点 递归 地 调用 以 
上 方法 ， 构 建 决策 树 ， 直 到 所 有 特征 的 信息 增益 均 很 小 或 没有 特征 可 以 
选择 为 止 。 最 后 得 到 一 个 决策 树 。ID3 相 当 于 用 极 大 似 然 法 进行 概率 模 
型 的 选择 。 

算法 5.2 (ID3 算 法 ) 

输入 : 训练 数据 集 D， 特 征集 A， 浆 值 G; 

输出 : 决策 树 T。 

(1) 若 D 中 所 有 实例 属于 同一 类 C ， 则 T 为 单 结 点 树 ， 并 将 类 C 作 
为 该 结 点 的 类 标记 ， 返 回 T; 

(2) 香 A 三 g， 则 T 为 单 结 点 树 ， 并 将 D 中 实例 数 最 大 的 类 C 作为 该 
结 点 的 类 标记 ， 返 回 T; 

(3) 否则 ， 按 算法 5.1 计 算 A 中 各 特征 对 DD 的 信息 增益 ， 选 择 信息 增 
益 最 大 的 特征 A,; 

(4) 如 果 A 的 信息 增益 小 于 靖 值 区， 则 置 T 为 单 结 点 树 ， 并 将 D 中 
实例 数 最 大 的 类 C 作为 该 结 点 的 类 标记 ， 返 回 T; 

(5) 否则， 对 A 的 每 一 可 能 值 a， 依 A =a 将 D 分 割 为 在 干 非 空 子 集 
D， 将 了 DD 中 实例 数 最 大 的 类 作为 标记 ， 构 建 子 结 点 ， 由 结 点 及 其 子 结 点 
构成 树 T， 返 回 T; 

(6) 对 第 i 个 子 结 点 ， 以 D 为 训练 集 ， 以 A-{A } 为 特征 集 ， 递 归 地 
调用 步 (1) 一 步 〈5) ， 得 到 子 树 工 ， 返 回 工 。 








例 5.3 ”对 表 5.1 的 训练 数据 集 ， 利 用 ID3 算 法 建立 决策 树 。 
解 ” 利 用 例 5.2 的 结果 ， 由 于 特征 A, (有 自己 的 房子 ) 的 信息 增益 值 
最 大 ， 所 以 选择 特征 A, 作 为 根 结 点 的 特征 。 它 将 训练 数据 集 D 划 分 为 两 
个 子 集 D，(A 取 值 为 “是”*”) 和 D,，(A 取 值 为 “ 否 ") 。 由 于 D 只 有 同一 类 
的 样本 点 ， 所 以 它 成 为 一 个 叶 结 点 ， 结 点 的 类 标记 为 “是 ”。 
对 D 则 需 从 特征 A (年 龄 )，A, (有 工作 ) 和 A (信贷 情况 ) 中选 
择 新 的 特征 。 计 算 各 个 特征 的 信息 增益 : 
g(D,,A)=H(D,)- H(D, | 4)=0.918—0.667 = 0.251 
g(D,,4,)= H(D,)- H(D, | 4,)=0.918 
g(D,,A,)= H(D,)— H(D, | 4,)=0.474 
选择 信息 增益 最 大 的 特征 A, (有 工作 〉 作为 结 点 的 特征 。 由 于 A, 有 两 个 
可 能 取 值 ， 从 这 一 结 点 引出 两 个 子 结 点 : 一 个 对 应 “是 ”( 有 工作 ) 的 子 
结 点 ， 包 含 3 个 样本 ， 它 们 属于 同一 类 ， 所 以 这 是 一 个 叶 结 点 ， 类 标记 
为 “是 ” 另 一 个 是 对 应 * 否 ”(〈 无 工作 ) 的 子 结 点 ， 包 含 6 个 样本 ， 它 们 
也 属于 同一 类 ， 所 以 这 也 是 一 个 叶 结 点 ， 类 标记 为 “ 否 ”。 
这 样 生 成 一 个 如 网 5.5 所 示 的 决策 树 。 该 决策 树 只 用 了 两 个 特征 
《有 两 个 内 部 结 点 ) 。 











有 自己 的 房子 





图 5.5 决策 树 的 生成 
ID3 算 法 只 有 树 的 生成 ， 所 以 该 算法 生成 的 树 容易 产生 过 拟 合 。 


5.3.2 ”C4.5 的 生成 算法 











C4.5 算 法 与 ID3 算 法 相似 ，C4.5 算 法 对 ID3 算 法 进行 了 改进 。C4.5 在 
生成 的 过 程 中 ， 用 信息 增益 比 来 选择 特征 。 

算法 5.3 (C4.5 的 生成 算法 ) 

输入 : 训练 数据 集 D， 特 征集 A， 阔 值 G; 

输出 : 决策 树 工 。 

(1) 如 果 D 中 所 有 实例 属于 同一 类 C ， 则 置 I 为 单 结 点 树 ， 并 将 C 
作为 该 结 点 的 类 ， 返 回 T; 

(2) 如 果 A= 三 g， 则 置 T 为 单 结 点 树 ， 并 将 D 中 实例 数 最 大 的 类 C 作 
为 该 结 点 的 类 ， 返 回 T; 

(3) 否则 ， 按 式 (5.10) 计算 A 中 各 特征 对 DD 的 信息 增益 比 ， 选 择 
信息 增益 比 最 大 的 特征 A, 

(4) 如 果 A 的 信息 增益 比 小 于 阔 值 台 ， 则 置 T 为 单 结 点 树 ， 并 将 D 
中 实例 数 最 大 的 类 C 作为 该 结 点 的 类 ， 返 回 T; 

(5) 否则 ， 对 A 的 每 一 可 能 值 a， 依 A 二 a 将 DD 分 割 为 子 集 若 干 非 空 
D， 将 D 中 实例 数 最 大 的 类 作为 标记 ， 构 建 子 结 点 ， 由 结 点 及 其 子 结 点 
构成 树 T， 返 回 T; 

(6) 对 结 点 1i， 以 D 为 训练 集 ， 以 A-{A } 为 特征 集 ， 递 归 地 调用 步 
() 一 步 (5)， 得 到 子 树 工 ， 返 回 工 。 


5.4 ” 决 倘 树 的 更 校 


决策 树 生成 算法 圳 归 地 产生 决策 树 ， 下 到 不 能 继续 下 去 为 止 。 这 样 
产生 的 树 往往 对 训练 数据 的 分 类 很 准确 ， 但 对 未 知 的 测试 数据 的 分 类 却 
没有 那么 准确 ， 即 出 现 过 拟 合 现象 。 过 拟 合 的 原因 在 于 学 习 时 过 多 地 考 
碟 如 何 提高 对 训练 数据 的 正确 分 类 ， 从 而 构建 出 过 于 复杂 的 决策 树 。 解 
决 这 个 问题 的 办 法 是 考虑 决策 树 的 复 傈 度 ， 对 已 生成 的 决策 树 进 行 简 


化 。 

在 决策 树 学 习 中 将 已 生成 的 树 进行 简化 的 过 程 称 为 剖 校 
(pruning) 。 具 体 地 ， 剪 校 从 已 生成 的 树 上 裁 挥 一 些 子 树 或 叶 结 点 ， 并 
将 其 根 结 点 或 父 结 点 作为 新 的 叶 结 点 ， 从 而 简化 分 类 树 模 型 。 

本 节 介 绍 一 种 简单 的 决策 树 学 习 的 可 枝 算法 。 

决策 树 的 剪 校 往往 通过 极 小 化 决策 树 整 体 的 损失 函数 (loss 
function) 或 代价 函数 〈cost function〉 来 实现 。 设 树 T 的 叶 结 点 个 数 
为 | 工 ，t 是 树 T 的 叶 结 点 ， 该 叶 结 点 有 NN 个 样本 点 ， 其 中 k 类 的 样本 点 有 
N 个 ，k 二 1,2,...,K，H(T) 为 叶 结 点 t 上 的 经 验 焙 ，a>0 为 参数 ， 则 决策 树 

















学 习 的 损失 函 0 


BS 人 PNA T+ aT (S11) 
其 中 经 验 炉 为 
HAT)S og (5.12) 
i N, 
在 损失 函数 中 ， es ep 
CN)=Y NHT)= DNs (5.13) 
t=} t= k=l 
这 时 有 
C,(T)=C(T)+al7| (5.14) 


式 《5.14)〉 中 ，C(T) 表 示 模 型 对 训练 数据 的 预测 误 产 ， 即 模型 与 训练 数 

据 的 拟 合 程度 ，|T| 表 示 模 型 复杂 上 度 ， 参 数 a>0 控 制 两 者 之 间 的 影响 。 较 

大 的 a 促使 选择 较 简 单 的 模型 ( 树 ) ， 较 小 的 a 促使 选择 较 复杂 的 模型 

本 》。a 一 0 意味 着 只 考 谍 模型 与 训 纺 数 据 的 拟人 程度， 不 考虑 模型 的 
有 尔 上 凡 。 

剪 枝 ， 就 是 当 a 确 定时 ， 选 择 损失 函数 最 小 的 模型 ， 即 损失 函数 最 
小 的 子 树 。 当 a 值 确定 时 ， 子 树 越 大 ， 往 往 与 训练 数据 的 拟 合 越 好 ， 但 
是 模型 的 复杂 度 就 越 高 ， 相反 ， 子 树 越 小 ， 模 型 的 复杂 度 就 越 低 ， 但 是 
往往 写 训 绒 数 据 交 拟 合 个 好 。 换 失 函 数 正好 表示 了 对 两 着 的 十 衡 。 

可 以 看 出 ， 决 策 树 生成 只 考虑 了 通过 提高 信息 增益 (或 信息 增益 
比 ) 对 训练 数据 进行 更 好 的 拟 合 。 而 决策 树 部 相通 过 优化 损失 员 数 还 考 
虑 了 减 小 模型 复杂 度 。 决 策 树 生成 学 习 局 部 的 模型 ， 而 决策 树 剪 枝 学 习 
整体 的 模型 。 

式 (5.11) 或 式 (5.14) 定义 的 损失 函数 的 极 小 化 等 价 于 正则 化 的 
极 大 似 然 估计 。 所 以 ， 利 用 损失 函数 最 小 原则 进行 剪 枝 就 是 用 正则 化 的 
极 大 似 然 估计 进行 模型 选择 。 

图 5.6 是 决策 树 剪 枝 过 程 的 示意 图 。 下 面 介 绍 剪 杭 算法 。 





























| 得到 子 村 


a 


图 5.6 ” 决 集 树 的 草 梳 


算法 5.4〈 树 的 剪 枝 算 法 ) 

输入 : 生成 算法 产生 的 整个 树 T， 参 数 a; 

输出 : 修剪 后 的 子 树 T。 

(1) 计算 每 个 结 点 的 经 验 炳 。 

(2) 递归 地 从 树 的 叶 结 点 向 上 回 缩 。 

设 一 组 叶 结 点 回 缩 到 其 父 结 点 之 前 与 之 后 的 整体 树 分 别 为 I, 与 T,， 
其 对 应 的 损失 函数 值 分 别 是 C(T,) 与 C(T,)， 如 果 
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则 进行 剪 枝 ， 即 将 父 结 点 变 为 新 的 叶 结 点 。 

(3) 返回 (2) ， 直 至 不 能 继续 为 止 ， 得 到 损失 函数 最 小 的 子 树 


工 。 

注意 ， 式 (5.15) 只 需 考 碟 两 个 树 的 损失 函数 的 兰 ， 其 计算 可 以 在 
局 部 进行 。 所 以 ， 决 集 树 的 副 校 算法 可 以 由 一 种 动态 规划 的 算法 实现 。 
类 似 的 动态 规划 算法 可 参见 文献 [10]。 


5.5 CART 算法 


分 类 与 回归 树 (classification and regression tree，CART) 模型 由 


Breiman 等 人 在 1984 年 提出 ， 是 应 用 广泛 的 决策 树 学 习 方 法 。CART 同 样 
由 特征 选择 、 树 的 生成 及 剪 梳 组 成 ， 既 可 以 用 于 分 类 也 可 以 用 于 回归 。 
以 下 将 用 于 分 类 与 回归 的 树 统 称 为 决策 树 。 

CART 是 在 给 定 输入 随机 变量 X 条 件 下 输出 随机 变量 Y 的 条 件 概率 分 
布 的 学 习 方法 。CART 假 设 决 策 树 是 二 叉 树 ， 内 部 结 点 特征 的 取 值 
条 是 和"* 侣 ”， 自分 文 是 取 全 条 是 "的 分 文 ， 右 分 文 是 取 值 为 “ 否 ” 的 分 
支 。 这 样 的 决策 树 等 价 于 递归 地 二 分 每 个 特征 ， 将 输入 空间 即 特征 空间 
划分 为 有 限 个 单元 ， 并 在 这 些 单元 上 确定 预测 的 概率 分 布 ， 也 就 是 在 输 
入 给 定 的 条 件 下 输出 的 条 件 概率 分 布 。 

CART 算 法 由 以 下 两 步 组 成 : 

人 
忌 量 大 ; 
(2) 决策 树 剪 校 : 用 验证 数据 集 对 已 生成 的 树 进 行 剪 枝 并 选择 最 
优 子 树 ， 这 时 用 损失 函数 最 小 作为 毅 枝 的 标准 。 


5.5.1 CART 生 成 
决策 树 的 生成 就 是 递归 地 构建 二 又 决策 树 的 过 程 。 对 回归 树 用 平方 
误差 最 小 化 准则 ， 对 分 类 树 用 基尼 指数 (Gini ”index)〉 最 小 化 准则 ， 进 
行 特征 选择 ， 生 成 二 又 树 。 
1， 回归 树 的 生成 


并 且 Y 是 连续 变量 ， 给 定 训练 数 

















D={(m Tp) (x 
考虑 如 何 生成 回归 树 。 
一 个 回归 树 对 应 着 输入 空间 《〈 即 特征 空间 ) 的 一 个 划分 以 及 在 划分 
的 单元 上 的 输出 值 。 假 设 已 将 输入 空间 划分 为 M 个 单元 R,,R,,….,R,， 
且 在 每 个 单元 R ,上 有 一 个 固定 的 输出 值 c ， 于 是 回归 树 模型 可 表示 为 
Ni 
0 = 76 1Ken) (5.16) 
m=] 
DD- 
当 输 入 空间 的 划分 确定 时 ， 可 以 用 平方 误差 sen 来 表示 
回归 树 对 于 训练 数据 的 预测 误差 ， 用 平方 误差 最 小 的 准则 求解 每 个 单元 
上 的 最 优 输 出 值 。 易 知 ， 单 元 R 上 的 c 的 最 优 值 C 是 R 上 的 所 有 输入 实 





例 x 对 应 的 输出 y 的 均值 ， 即 
c, =ave(y, |x,eR,) (5 
问题 是 怎样 对 输入 空间 进行 划分 。 这 里 采用 启发 式 的 方法 ， 选 择 第 
j 个 变量 xo 和 它 取 的 值 s， 作 为 切 分 变量 (splitting variable) 和 切 分 点 
(splitting point) ， 并 定义 两 个 区 域 : 





癌 ( 六 的 二 fx 过 人 和 R= > (5.18) 
然后 寻找 最 优 切 分 变量 j 和 最 优 切 分 点 s。 上 有 具 体 地 ， 求 解 
min| min (»,—c) +min 2 (y,—c,) (5.19) 
Es 9 weR(j,s) 2 weR, (ji,s) 
对 固定 输入 变量 j 可 以 找到 最 优 切 分 点 s。 
6 =ave(y,|x eR(j,s) 和 6¢,=ave(y, |x, eR,(j,s)) (5.20) 


衣 历 所 有 输入 变量 ， 找 到 最 优 的 切 分 变量 j， 构 成 一 个 对 GO,s)。 依 此 将 输 
入 空间 划分 为 两 个 区 域 。 接 着 ， 对 每 个 区 域 重复 上 述 划 分 过 程 ， 直 到 满 
足 停 止 条 件 为 止 。 这 样 束 生成 一 柠 回 归 树 。 这 样 的 回归 树 通 音 称 为 最 小 
二 乘 回归 树 (least squares regression tree) ， 现 将 算法 叙述 如 下 : 

算法 5.5〈 最 小 二 乘 回 归 树 生成 算法 ) 

输入 : 训练 数据 集 D; 

输出 : 回归 树 f(x)。 

在 训练 数据 集 所 在 的 输入 空间 中 ， 递 归 地 将 每 个 区 域 划分 为 两 个 子 
区 域 并 决定 每 个 子 区 域 上 的 输出 值 ， 构 建 二 又 决策 树 : 

(1) 选择 最 优 切 分 变量 j 与 切 分 点 s， 求 解 


min min > (2 一 c) +min Oe | 了 


1 VER 7) ~ WEeR (js) 








过 有 历 变量 j， 对 固定 的 切 分 变量 j 扫 描 切 分 点 s， 选 择 使 式 〈5.21) 达 
到 最 小 值 的 对 〈j,s) 。 
(2) 用 选 定 的 对 (j,s〉 划 分 区 域 并 决定 相应 的 输出 值 : 
Re i | 


] 
:本 > yy， XER, m=1,2 


mh i 
ji , 
aN weR (i,s) 


(3) 继续 对 两 个 子 区 域 调用 步 双 (1) ， (2) ， 直 至 满足 停止 条 
(4) 将 输入 空间 划分 为 M 个 区 域 R,R,，….R,， 生 成 决策 树 : 


NM 
TS > CNR 


2. 分 类 树 的 生成 
分 类 树 用 基尼 指数 选择 最 优 特征 ， 同 时 决定 该 特征 的 最 优 二 值 切 分 


“定义 5.4〈 基 尼 指数 ) 分 类 问题 中 ， 假 设 有 K 个 类 ， 样 本 点 属于 第 
k 类 的 概率 为 5 ， 则 概率 分 布 的 基尼 指数 定义 为 


大 天 
Gini(p)= 2_pi(l—pi)=1- 2 pt ($5.22) 
类 =] 上 =] 


对 于 二 类 分 类 问题 ， 知 样本 点 属于 第 1 个 类 的 概率 是 p， 则 概率 分 布 的 基 
尼 指 数 为 


4 








Gini(P)=2P(1 一 也 ) ($.23) 
对 于 给 定 的 样本 集合 D， 其 基尼 指数 为 





SET 
Gini(D)=1— | 
SD) 
这 里 ，C 是 D 中 属于 第 k 类 的 样本 子 集 ，K 是 类 的 个 数 。 
如 果 样 本 集合 DD 根据 特征 A 是 否 取 某 一 可 能 值 a 被 分 割 成 D, 和 DD, 两 部 


分 ， 即 


(5.24) 





D={(x,y)eD|A(x)=al}, D,=D-D 

则 在 特征 A 的 条 件 下 ， 集 合 D 的 基尼 指数 定义 为 
-DiGinicp )+ SlGinicp,) 加 
ID| DI 
基尼 指数 Gini(D) 表 示人 集合 D 的 不 确定 性 ， 基 尼 指 数 Gini(D,A) 表 示 经 A=a 
分 割 后 集合 D 的 不 确定 性 。 基 尼 指 数值 越 大 ， 样 本 集合 的 不 确定 性 也 就 
越 大 ， 这 一 点 与 炉 相似 。 

图 5.7 显 示 二 类 分 类 问题 中 基尼 指数 Gini(p)、 炉 (单位 比特 〉 之 半 : 
H(p) 和 分 类 误差 率 的 关系 。 横 坐标 表示 概率 p， 纵 坐标 表示 损失 。 可 以 
看 出 基尼 指数 和 箭 之 半 的 曲线 很 接近 ， 都 可 以 近似 地 代表 分 类 误差 率 。 


Gini(D., 4A) 
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p 
图 5.7 二 类 分 类 中 基尼 指数 、 炉 之 半 和 分 类 误差 率 的 关系 











算法 5.6 (CART 生 成 算法 ) 

输入 : 训练 数据 集 D， 停 止 计算 的 条 件 ; 

输出 : CART 决 策 树 。 

根据 训练 数据 集 ， 从 根 结 点 开始 ， 递 归 地 对 每 个 结 点 进行 以 下 操 
作 ， 构 建 二 又 决策 树 : 

(1) 设 结 点 的 训练 数据 集 为 D， 计 算 现 有 特征 对 该 数据 集 的 基尼 
指数 。 此 时 ， 对 每 一 个 特征 A， 对 其 可 能 取 的 每 个 值 a， 根 据 样本 点 对 A 
三 a 的 测试 为 “是 ”或 “ 否 ” 将 DD 分 割 成 D, 和 D, 两 部 分 ， 利 用 式 (5.25〉 计算 
A 二 a 时 的 基尼 指数 。 

(2) 在 所 有 可 能 的 特征 A 以 及 它们 所 有 可 能 的 切 分 点 a 中 ， 选 择 基 
尼 指 数 最 小 的 特征 及 其 对 应 的 切 分 点 作为 最 优 特 征 与 最 优 切 分 点 。 依 最 
优 特征 与 最 优 切 分 点 ， 从 现 结 点 生成 两 个 子 结 点 ， 将 训练 数据 集 依 特征 
分 配 到 两 个 子 结 点 中 去 。 

(3) 对 两 个 子 结 点 递归 地 调用 (1) ， (2) ， 直 至 满足 停止 条 
件 。 

(4) 生成 CART 决 策 树 。 

算法 停止 计算 的 条 件 是 结 点 中 的 样本 个 数 小 于 预定 靖 值 ， 或 样本 集 
的 基尼 指数 小 于 预定 浆 值 〈 样 本 基本 属于 同一 类 ) ， 或 者 没有 更 多 特 
征 。 

例 5.4 根据 表 5.1 所 给 训练 数据 集 ， 应 用 CART 算 法 生成 决策 树 。 

解 ”首先 计算 各 特征 的 基尼 指数 ， 选 择 最 优 特征 以 及 其 最 优 切 分 
点 。 仍 采用 例 5.2 的 记号 ， 分 别 以 A，A,，A ，A 表示 年 龄 、 有 工作 、 有 
自己 的 房子 和 信贷 情况 4 个 特征 ， 并 以 1，2，3 表 示 年 龄 的 值 为 青年 、 中 
年 和 老年 ， 以 1，2 表 示 有 工作 和 有 上 自己 的 房子 的 值 为 是 和 和 否 ， 以 1，2， 














3 表示 信贷 情况 的 值 为 非常 好 、 好 和 一 般 。 
求 特 征 A, 的 基尼 指数 : 


ds > 2 2 10 7 g 
Gini(D, 4 =1)=—| 2x—x|1-—||+—| 2x—x|1-—||=0.44 
15 sr 5 15 10 10 


Gini(D, A = 2)=0.48 
Gini(D, A =3)=0.44 
由 于 Gini(D，A =D 和 Gini(D，A 三 3) 相 等 ， 且 最 小 ， 所 以 A = 二 1 和 
A 三 3 都 可 以 选 作 A 的 最 优 切 分 点 。 
求 特征 A, 和 A 的 基尼 指数 : 
Gini(D, 4, =1) = 0.32 
Gini(D, A, =1) = 0.27 
由 于 A, 和 A, 只 有 一 个 切 分 点 ， 所 以 它们 就 是 最 优 切 分 点 。 
求 特征 A 的 基尼 指数 : 
Gini(D,4 =1) = 0.36 
Gini(D, A, = 2) = 0.47 
Gini(D, A, =3) = 0.32 
Gini(D，A, 二 3) 最 小 ， 所 以 A 二 3 为 A 的 最 优 切 分 点 。 
在 A,，A,，A,.，A, 几 个 特征 中 ，Gini(D，A,= 二 1) 二 0.27 最 小 ， 所 以 选 
择 特征 A, 为 最 优 特征 ，A, 二 1 为 其 最 优 切 分 点 。 于 是 根 结 点 生成 两 个 子 
结 点 ， 一 个 是 叶 结 点 。 对 另 一 个 结 点 继续 使 用 以 上 方法 在 A，A,，A 中 
选择 最 优 特 征 及 其 最 优 切 分 点 ， 结 果 是 A, 二 1。 依 此 计算 得 知 ， 所 得 结 
点 都 是 叶 结 点 。 
对 于 本 问题 ， 按 照 CART 算 法 所 生成 的 决策 树 与 按照 ID3 算 法 所 生 
成 的 决策 树 完全 一 致 。 


5.5.2 CART 前 枝 


CART 勇 术 算 法 从 “完全 生长 ”的 决策 树 的 确 问 勇 去 一 些 子 树 ， 使 决 
朱 树 变 小 (模型 变 简单 )， 从 而 能 够 对 未 知 数据 有 更 准确 的 预测 。 
CART 甬 术 算 法 由 两 步 组 成 : 首先 从 生成 算法 产生 的 决策 树 T 诺 端 开始 
不 断 枉 梳 ， 直 到 T, 的 根 结 友 ， 形 成 一 个 子 树 厅 列 {T,，T,…,T,}; 然后 通 
过 交叉 验证 法 在 独立 的 验证 数据 集 上 对 子 树 序 列 进行 测试 ， 从 中 选择 最 


优 子 树 。 
1， 勇 校 ， 形 成 一 个 子 树 序列 


在 剪 术 过 程 中 ， 计 算 子 树 的 损失 函数 : 
CT)=C0+ eT) (5.26) 

其 中 ,TT 为 任意 子 树 ，C(T) 为 对 训练 数据 的 预测 误差 (如 基尼 指 
数 ) ，|T| 为 子 树 的 叶 结 点 个 数 ，a>0 为 参数 ，C (T) 为 参数 是 a 时 的 子 树 TT 
的 整体 损失 。 参 数 a 权 衡 训 练 数据 的 拟 合 程度 与 模型 的 复杂 上 度 。 

对 固定 的 a， 一 定 存在 使 损失 函数 C.(T) 最 小 的 子 树 ， 将 其 表示 为 
工 。 工 在 损失 函数 C.(T) 最 小 的 意义 下 是 最 优 的 。 容 易 验 证 这 样 的 最 优 子 
树 是 唯一 的 。 当 a 大 的 时 候 ， 最 优 子 树 工 俩 小 ， 当 a 小 的 时 候 ， 最 优 子 树 
工 偏 大 。 极 端 情况 ， 当 a 二 0 时 ， 整 体 树 是 最 优 的 。 当 a -90 时， 根 结 点 组 
成 的 单 结 点 树 是 最 优 的 。 

Breiman 等 人 证 明 : 可 以 用 递归 的 方法 对 树 进行 前 梳 。 将 a 从 小 增 
大 ，0 二 a<a<...<a<+00， 产 生 一 系列 的 区 间 [a,a,,)i 二 0,1,...,n; 甬 术 得 
到 的 子 树 序列 对 应 着 区 间 at[a,a,)，i 二 0,1,...,n 的 最 优 子 树 序列 {T,，T,， 
.…, 了 }， 序 列 中 的 子 树 是 藤 套 的 。 

具体 地 ， 从 整体 树 工 开始 豆 校 。 对 工 的 任意 内 部 结 点 t， 以 t 为 单 结 点 
树 的 损失 函数 是 








C_ (=CO+ac (5.27) 
以 t 为 根 结 点 的 子 树 工 的 损失 函数 是 
CD)=CG)+al7 | (5.28) 
当 a 二 0 及 a 充分 小 时 ， 有 不 等 式 
C(T)<C 四 (5.29) 
当 a 增 大 时 ， 在 某 一 a 有 
C.(T)=C, (1) (5.30) 


CO-cOD) 
当 a 再 增 大 时 ， 不 等 式 (5.29) 有 反 同 。 只 要 ”15I-1 ，T 与 t 有 相同 
的 损失 函数 值 ， 而 t 的 结 点 少 ， 因 此 t 比 TT 更 可 取 ， 对 TT 进行 鸡 术 3。 
为 此 ， 对 TT 中 每 一 内 部 结 点 t， 计 算 
C(t)—C(T) 
Ne 
SE 
它 表示 前 校 后 整体 损失 函数 减少 的 程度 。 在 ,中 剪 去 g(D 最 小 的 T， 将 得 


(5.31) 








到 的 子 树 作 为 T， 同 时 将 最 小 的 g(D 设 为 a。 工 为 区 间 [aua) 的 最 优 子 树 。 
如 此 剪 校 下 去 ， 直 至 得 到 根 结 点 。 在 这 一 过 程 中 ， 不 断 地 增加 a 的 
值 ， 产 生 新 的 区 间 。 


2. 在 剪 枝 得 到 的 子 树 序列 工 , 工 .…. 工 中 通过 交叉 验证 选取 最 优 子 
树 工 


具体 地 ， 利 用 独立 的 验证 数据 集 ， 测 试 子 树 序 列 工 工 ,……. 江 中 各 棵 子 
树 的 平方 误差 或 基尼 指数 。 平 方 误差 或 基尼 指数 最 小 的 决策 树 被 认为 是 
最 优 的 决策 树 。 在 子 树 序 列 中 ， 每 棵 子 树 T,T,.….,T 都 对 应 于 一 个 参数 
aa .as。 所 以 ， 当 最 优 子 树 工 确定 时 ， 对 应 的 ak 也 确定 了 ， 即 得 到 最 
优 决 策 树 T。 
现在 写 出 CART 前 枝 算法 。 
算法 5.7 (CART 前 枝 算法 ) 
输入 : CART 算 法 生成 的 决策 树 T; 
输出 : 最 优 决 策 树 T。 
(1) 设 k 二 0，T 二 T。 
(2) 设 a 二 +00。 
(3) 目下 而 上 地 对 各 内 部 结 点 t 计 算 C(T)，|T| 以 及 
GH)— GL) 
TI-1 
0 = min(a, 2(?)) 
这 里 ,TT 表示 以 t 为 根 结 点 的 子 树 ，C(T) 是 对 训练 数据 的 预测 误差 ，|T| 是 
T 的 叶 结 点 个 数 。 
(4) 自 上 而 下 地 访问 内 部 结 点 t， 如 果 有 g(t) 二 a， 进 行 前 枝 ， 并 对 
叶 结 点 t 以 多 数 表 决 法 决定 其 类 ， 得 到 树 T。 
(5) 设 k 二 k+1,， a 二 a， 了 TT 二 了 T。 
(6) 如 果 T 不 是 由 根 结 点 单独 构成 的 树 ， 则 回 到 步 又 (4) 。 
(7) 采用 交叉 验证 法 在 子 树 序 列 T,T,.….,T 中 选取 最 优 子 树 T。 


本 章 概要 


1. 分 类 决策 树 模 型 是 表示 基于 特征 对 实例 进行 分 类 的 树 形 结构 。 
决策 树 可 以 转换 成 一 个 if-then 规 则 的 集合 ， 也 可 以 看 作 是 定义 在 特征 空 














£2(1) = 











间 划 分 上 的 类 的 条 件 概 率 分 布 。 

2. 决策 树 学 习 则 在 构建 一 个 与 训练 数据 拟 合 很 好 ， 并 且 复 杂 度 小 
的 决策 树 。 因 为 从 可 能 的 决策 树 中 直接 选取 最 优 决 策 树 是 NP 完全 问 
题 。 现 实 中 采用 启发 式 方法 学 习 次 优 的 决策 树 。 

决策 树 学 习 算法 包括 3 部 分 ;特征 选择 、 树 的 生成 和 树 的 剪 枝 。 常 
用 的 算法 有 ID3、C4.5 和 CART。 

3. 特征 选择 的 目的 在 于 选取 对 训练 数据 能 够 分 类 的 特征 。 特 征 选 
择 的 关键 是 其 准则 。 常 用 的 准则 如 下 : 

(1) 样本 集合 D 对 特征 A 的 信息 增益 (ID3) 

2£(D,A)= H(D)- H(D|A) 
Go I 


MY = y 
(D)=-2 DD 


nn D 
H(DID=D DAD) 





| 
其 中 ，H(D) 是 数据 集 DD 的 烂 ，H(D) 是 数据 集 D 的 烂 ，H(DI|A) 是 数据 集 D 
对 特征 A 的 条 件 焙 。 了 D 是 DD 中 特征 A 取 第 i 个 值 的 样本 子 集 ，C 是 DD 中 属于 
第 k 类 的 样本 子 集 。n 是 特征 A 取 值 的 个 数 ，K 是 类 的 个 数 。 
(2) 样本 集合 D 对 特征 A 的 信息 增益 比 〈C4.5) 
S(D,4d) 
DA 
gr(D, A) HD) 
其 中 ，g(D,A) 是 信息 增益 ，H(D) 是 数据 集 DD 的 。 
(3) 样本 集合 DD 的 基尼 指数 (CART) 


Gini(D) =1 > 


特征 A 条 件 下 集合 DD 的 基尼 指数 : 


DGiicp ) 十 [Poini(p ) 
D 局 

4. 决策 树 的 生成 。 通 币 使 用 信息 增 葵 最 大 、 信 息 增 苑 比 最 大 或 基 
尼 指 数 最 小 作为 特征 选择 的 准则 。 决 策 树 的 生成 往往 通过 计算 信息 增 葡 
或 其 他 指标 ， 从 根 结 点 开始 ， 递 归 地 产生 决策 树 。 这 相当 于 用 信息 增益 
或 其 他 准则 不 断 地 选取 局 部 最 优 的 特征 ， 或 将 训练 集 分 割 为 能 够 基本 正 
确 分 类 的 子 集 。 








本 Ip 
Gini(D, A)= 











5. 决策 树 的 筋 校 。 由 于 生成 的 决策 树 存在 过 拟 合 问题 ， 需 要 对 它 
进行 六 校 ， 以 简化 学 到 的 决 岳 树 。 决 策 树 的 榴 梳 往往 从 已 生成 的 树 上 
前 掉 一 些 叶 结 上 或 叶 结 点 以 上 的 子 树 ， 并 将 其 父 结 点 或 根 结 扣 作为 新 的 
叶 结 点 ， 从 而 简化 生成 的 决策 树 。 


继续 阅读 


介绍 决策 树 学 习 方 法 的 文献 很 多 ， 关 于 ID3 可 见 文献 [1]，C4.5 可 见 
文献 2]，CARIT 可 见 文献 [3,4]。 决 策 树 学 习 一 般 性 介绍 可 见 文 献 [5 一 
7]。 与 决策 树 类 似 的 分 类 方法 还 有 决策 列表 〈decision list) 。 决 俩 列表 
与 决策 树 可 以 相互 转换 "， 决 策 列 表 的 学 习 方法 可 参见 文献 [9]。 


习题 


5.1 根据 表 5.1 所 给 的 训练 数据 集 ， 利 用 信息 增 荔 比 (C4.5 算 法 ) 
生成 决策 树 。 
5.2 ”已 知 如 表 5.2 所 示 的 训练 数据 ， 试 用 平方 误 兰 损失 准则 生成 一 


个 二 又 回 归 树 。 
表 5.2 ”训练 数据 表 
5.3 ”证明 CART 前 枝 算 法 中 ， 当 a 确 定时 ， 存 在 唯一 的 最 小 子 树 工 使 
损失 函数 C(T) 最 小 。 
5.4 证 明 CART 剪 枝 算 法 中 求 出 的 子 树 序列 {T，T 工 ,…… 江 } 分 别 是 区 
| 间 at[a,a,) 的 最 优 子 树 T， 这 里 i 二 0,1,...,n，0 二 a<a<...<a<+00。 
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注释 
[1 此 例 取 自 参考 文献 [5]。 


第 6 章 他 辑 斯 诺 回 归 与 最 大 燃 模 型 


逻辑 斯 说 回归 (logistic regression) 是 统计 学 习 中 的 经 典 分 类 方 
法 。 最 大 信 是 概率 模型 学 习 的 一 个 准则 ， 将 其 推广 到 分 类 问题 得 到 最 大 
信 模 型 (maximum entropy model)〉。 逻 辑 斯 谤 回归 模型 与 最 大 炉 模 型 都 
属于 对 数 线 性 模型 。 本 章 首 先 介绍 逻辑 斯 详 回 归 模 型 ， 然 后 介绍 最 大 稍 
模型 ， 最 后 讲述 逻辑 斯 详 回 归 与 最 大 科 模型 的 学 习 算法 ， 包 括 改进 的 迭 
代 尺 度 算法 和 拟 牛 顿 法 。 


6.1 他 辑 斯 诵 回归 模型 
6.1.1 逻辑 斯 诺 分 布 
首先 介绍 逻辑 斯 详 分 布 (logistic distribution ) 。 
定义 6.1〈 逻 辑 斯 请 分 布 ) ” 设 X 是 连续 随机 变量 ，X 服 从 还 辑 斯 详 
分 布 是 指 X 具 有 下 列 分 布 函数 和 密度 函数 : 
HONS : 





一 0.1 
le™ © 


” e (一 AI 
f(x)=F (x)= rr (6.2) 


式 中 ，AH 为 位 置 参 数 ， 了 >0 为 形状 参数 。 

逻辑 斯 谤 分 布 的 密度 函数 f(x) 和 分 布 水 数 F(x) 的 图 形 如 图 6.1 所 示 。 
分 布 函 数 属 于 逻辑 斯 详 函 数 ， 其 图 形 是 一 条 S 形 曲线 (sigmoid 
curve) 。 该 曲线 以 点 (*3 为 中 心 对 称 ， 即 满足 


] ] 
F(-—x+ 41)——=—F(x+ LA) 十 一 
( A) 了 (十 志 ) 


f(x) F(x) 


X x 


图 6.1 逻辑 斯 详 分 布 的 密度 函数 与 分 布 函数 


曲线 在 中 心 附近 增长 速度 较 快 ， 在 两 端 增长 速度 较 慢 。 形 状 参数 /的 值 
越 小 ， 曲 线 在 中 心 附近 增长 得 越 快 。 


6.1.2 ”二 项 馆 辑 斯 请 回归 模型 


二 项 逻辑 斯 说 回归 模型 (binomial logistic regression model) 是 一 种 
分 类 模型 ， 由 条 件 概 率 分 布 P(Y|X) 表 示 ， 形 式 为 参数 化 的 逻辑 斯 诵 分 
布 。 这 里 ， 随 机 变量 X 取 值 为 实数 ， 随 机 变量 Y 取 值 为 1 或 0。 我 们 通过 
监督 学 习 的 方法 来 估计 模型 参数 。 

定义 6.2〈 逮 辑 斯 请 回归 模型 ) ”二 项 逻辑 斯 详 回 归 模 型 是 如 下 的 
条 件 概 率 分 布 : 


plY S11 = exp(w. XxX+Db) 


, (0.3) 
1+exp(w.x+D) 
] 
已 (7 了 = 0 | 2) = 一 一 0.4 
二 本 1+exp(Ww .x+D) OD 
这 里 ，xER" 是 输入 ，Ye{0,1} 是 输出 ，wER" 和 beR 是 参数 ，w 称 为 权 值 癌 
量 ，b 称 为 偏 置 ，w:x 为 w 和 x 的 内 积 。 

对 于 给 定 的 输入 实例 x， 按 照 式 (6.3) 和 式 (6.4) 可 以 求 得 P(Y== 
1|lx) 和 P(Y 二 0|x)。 好 辑 斯 育 回 归 比 较 两 个 条 件 概 率 值 的 大 小 ， 将 实例 x 分 
到 概率 值 较 大 的 那 一 类 。 

有 时 为 了 方便 ， 将 权 值 问 量 和 输入 同 量 加 以 扩充 ， 仍 记 作 w，x， 
和 X 一 (Xo,x2,...,xXo,1。 这 时 ， 罗 和 辑 斯 详 回 归 模 型 

DT 下 : 


exp(Ww. Xx) 


P(Y =1|x)= (6.5) 


1 + exp(w. Xx) 
PY =0|x)}= Es (6.6) 
| + exp(w.X) 
现在 考查 逻辑 斯 请 回归 模型 的 特点 。 一 个 事件 的 几率 〈odds) 是 指 
该 事件 及 生 的 役 率 与 该 事件 个 及 生 的 概 诗 的 比值 如 果 事 件 发 生 的 概率 


征 p， 那 么 该 事件 的 几率 是 1-2， 该 事件 的 对 数 几 率 (log ”odds) 或 logit 
函数 是 








logit(p)= 0g5 上 


对 逻辑 斯 详 回 归 而 言 ， 由 式 (6.5) 与 式 〈6.6) 得 
P(Y =1|x) 
log 一 一 一 一 一 一 一 一 WoX 
l= RY = 1 
这 就 是 说 ， 在 逻辑 斯 谤 回归 模型 中 ， 输 出 Y= 二 1 的 对 数 几 率 是 输入 x 的 线 
性 函数 。 或 者 说 ， 输 出 Y 三 1 的 对 数 几 率 是 由 输入 x 的 线性 函数 表示 的 模 
型 ， 即 逻辑 斯 请 回归 模型 。 

换 一 个 角度 看 ， 考 虑 对 输入 x 进行 分 类 的 线性 函数 w:x， 其 值 域 为 实 
数 域 。 注 意 ， 这 里 xER™',wER™'。 通过 过 辑 斯 谎 回 归 模 型 定义 式 (6.5) 
可 以 将 线性 函数 w.x 转 换 为 概率 : 

P(Y =1|x)= exp(w. Xx) 
1+ exp(w.xXx) 
这 时 ， 线 性 函数 的 值 越 接近 正 无 穷 ， 概 率 值 就 越 接近 1; 线性 函数 的 值 
越 接 近 负 无 穷 ， 概 率 值 束 越 接近 0 (如 图 6.1 所 示 ) 。 这 样 的 模型 就 是 逻 
辑 斯 说 回归 模型 。 


6.1.3 ”模型 参数 估计 


逻辑 斯 谊 回归 模型 学 习 时 ， 对 于 给 定 的 训练 数据 集 T 二 {(x,，y,)， 
(X,，7),…,(Xwy)}， 其 中 ，xER"，yeE{0,1}， 可 以 应 用 极 大 似 然 估 计 法 估 
计 模 曹参 数 ， 从 而 得 到 逻辑 斯 诺 回归 模型 。 

设 : P(Y=1|x)=Ax(x), Pl(Y =0|x)=1-x(x) 
似 然 函数 为 





[I GF 0 -a ))™ 
对 数 似 然 函 数 为 
L(w) = > logx(x,)+(1—y,)log(l— x(x,))] 


i= 


= 各 本 +log(l — x(x, 中 


N 
= [yw.x)—log(l+exp(w.x)] 
i=] 


对 L(w) 求 极 大 值 ， 得 到 w 的 估计 值 。 

这 样 ， 问 题 就 变 成 了 以 对 数 似 然 函 数 为 目标 函数 的 最 优化 问题 。 膛 
辑 斯 谤 回归 学 习 中 通常 采用 的 方法 是 梯度 下 降 法 及 拟 牛 顿 法 。 

假设 w 的 极 大 似 然 估 计 值 是 水 ， 那 么 学 到 的 逻辑 斯 详 回 归 模 型 为 


PrF 二 和 六 二 ER 区 
1+exp(w. Xx) 
] 


| 
1 + exp(w.xXx) 


6.1.4 多 项 逻辑 斯 谤 回归 


上 面 介绍 的 逻辑 斯 详 回 归 模 型 是 二 项 分 类 模型 ， 用 于 二 类 分 类 。 可 
以 将 其 推广 为 多 项 逻辑 斯 请 回归 模型 (multi-nominal logistic _ regression 
model) ， 用 于 多 类 分 类 。 假 设 离散 型 随机 变量 Y 的 取 值 集合 是 {12， 
.区 }， 那么 多 项 逻辑 斯 谤 回归 模型 是 

exp(Ww » Xx) 





P(Y = 大 | 7) = 一 一 Ki=L Ri (6.7) 
Sy i 
1 
PY = =— OQ— (6.8) 


1+ Yexptw 。 x) 


=] 


这 里 XER™,W ER 。 
二 项 逻辑 斯 详 回 归 的 参数 估计 法 也 可 以 推广 到 多 项 逻辑 斯 请 回 归 。 


6.2 ”最 大 燃 模 型 
最 大 箭 模型 (maximum entropy model) 由 最 大 和 原 理 推 导 实 现 。 这 


里 首先 用 述 一 般 的 最 大 燃 原 理 ， 然 后 讲解 最 大 燃 模 型 的 推导 ， 最 后 给 出 
最 大 燃 模 型 学 习 的 形式 。 


6.2.1 最 大 炉 原 理 


最 大 燃 原 理 是 概率 模型 学 习 的 一 个 准则 。 最 大 燃 原 理 认为 ， 和 学 习 概 
率 模 型 时 ， 在 所 有 可 能 的 概率 模型 〈 分 布 ) 中 ， 焙 最 大 的 模型 是 最 好 的 
模型 。 通 弟 用 约束 条 件 来 确定 概率 模型 的 集合 ， 所 以 ， 最 大 精 原 理 也 可 
以 表述 为 在 满足 约束 条 件 的 模型 集合 中 选取 业 最 大 的 模型 。 

假设 离散 随机 变量 X 的 概率 分 布 是 P(X)， 则 其 燃 ( 参 照 5.2.2 证 是 

H(P)=—2_ P(x)log P(x) (6.9) 


烂 满足 下 列 不 等 式 : 











0<H(P)<1og|X | 

式 中 ，|X| 是 X 的 取 值 个 数 ， 当 且 仅 当 X 的 分 布 是 均匀 分 布 时 右边 的 等 号 
成 立 。 这 就 是 说 ， 当 X 服 从 均匀 分 布 时 ， 炉 最 大 。 

直观 地 ， 最 大 蚁 原理 认为 要 选择 的 概率 模型 首先 必须 满足 已 有 的 事 
实 ， 即 约束 条 件 。 在 没有 更 多 信息 的 情况 下 ， 那 些 不 确定 的 部 分 都 
是 “等 可 能 的 >”。 最 大 灶 原 理 通过 灶 的 最 大 化 来 表示 等 可 能 性 。 “等 可 
能 ”不 容易 操作 ， 而 业 则 是 一 个 可 优化 的 数值 指标 。 

首先 ， 通 过 一 个 简单 的 例子 来 介绍 一 下 最 大 业 原 理 。 

例 6.1 假设 随机 变量 X 有 5 个 取 值 {A，B，C，D，E}， 要 估计 取 各 
个 值 的 概率 P(A),P(B),P(C),P(D),P(E)。 

解 ” 这 些 概率 值 满 足以 下 约束 条 件 : 

P(A)+ P(B)+ P(C)+ P(D)+ P(E)=]1 

满足 这 个 约束 条 件 的 概率 分 布 有 无 穷 多 个 。 如 果 没 有 任何 其 他 信息 ， 仍 
要 对 概率 分 布 进行 估计 ， 一 个 办 法 就 是 认为 这 个 分 布 中 取 各 个 值 的 概率 


征 相等 的 : 




















等 要 六 表 示 了 对 事实 的 无 知 。 因 为 没有 更 多 的 信息 ， 这 种 关 电 是 全 更 


”有 时 ， 能 从 一 些 先 验 知识 中 得 到 一 些 对 概率 值 的 约束 条 件 ， 例 如 ;: 
3 
P(L4)+P(B)= 二 
(0) +P(B) = 
P(A)+ P(B)+ P(C)+ P(D)+ P(E)=]1 
满足 这 两 个 约束 条 件 的 概率 分 布 仍 然 有 无 穷 多 个 。 在 缺少 其 他 信息 的 情 
况 下 ， 可 以 认为 A 与 B 是 等 概率 的 ，C，D 与 E 是 等 概率 的 ， 于 是 ， 


要 3 
P(A)= P(B)=— 
(4)=P(B) 70 








P(C)= P(D)= P(E)= 二 
如 果 还 有 第 3 个 约束 条 件 : 
P(A)+ P(C)= ; 
P(A)+P(B)=2 
10 
P(A)+ P(B)+ P(C)+ P(D)+ P(E)=] 
可 以 继续 按照 满足 约束 条 件 下 求 等 概率 的 方法 估计 概率 分 布 。 这 里 不 再 
继续 讨论 。 以 上 概率 模型 学 习 的 方法 正 是 遵循 了 最 大 箭 原理。 
图 6.2 提 供 了 用 最 大 和 原 理 进 行 概率 模型 选择 的 几何 解释 。 概 率 模 
型 集合 P 可 由 欧 氏 空间 中 的 单纯 形 (simplex) 2 表示 ， 如 左 图 的 三 角形 
(2- 单 纯 形 ) 。 一 个 点 代表 一 个 模型 ， 整 个 单纯 形 代表 模型 集合 。 右 图 
上 的 一 条 直线 对 应 于 一 个 约束 条 件 ， 直 线 的 交集 对 应 于 满足 所 有 约束 条 
件 的 模型 集合 。 一 般 地 ， 这 样 的 模型 仍 有 无 穷 多 个 。 学 习 的 目的 是 在 可 
0 
准则。 














概率 模型 空间 满足 约束 条 件 的 模型 集合 
图 6.2 ”概率 模型 集合 


6.2.2 最 大 燃 模 型 的 定义 
最 大 灶 原 理 是 统计 学 习 的 一 般 原理 ， 将 它 应 用 到 分 类 得 到 最 大 灶 模 


型 。 

假设 分 类 模型 是 一 个 条 件 概 率 分 布 P(Y|/X)，XExSR' 表 示 输 入 ，YE 
表示 输出 ，x 和 站 分别 是 输入 和 输出 的 集合 。 这 个 模型 表示 的 是 对 于 给 
定 的 输入 XX， 以 条 件 概率 P(Y|X) 输 出 Y。 

给 定 一 个 训练 数据 集 

7 = (me 

学 习 的 目标 是 用 最 大 业 原 理 选 择 最 好 的 分 类 模型 。 

首先 考虑 模型 应 该 满足 的 条 件 。 给 定 训练 数据 集 ， 可 以 确定 联合 分 
布 P(X,Y) 的 经 验 分 布 和 边缘 分 布 P(X) 的 经 验 分 布 ， 分 别 以 P(X,Y) 和 P(X) 
表示 。 这 里 ， 














VR = = 


P(X=x,Y=y)= 
( y) NV 


0 Ra) 
N 





其 中 ，v(X 二 X,Y 三 7) 表示 训练 数据 中 样本 X,Y》 出 现 的 频数 ，v(X 二 x) 
表示 训练 数据 中 输入 x 出 现 的 频数 ，N 表 示 训 练 样 本 容量 。 
用 特征 函数 (feature function〉f(X,Y) 描 述 输入 x 和 输出 y 之 间 的 某 一 
个 事实 。 其 定义 是 
1， x 与 y 满 足 某 一 事实 


它 是 一 个 二 值 函 数 S， 当 x 和 y 满 足 这 个 事实 时 取 值 为 1， 否 则 取 值 为 0。 


ea 用 Ej(f) 表 示 。 
EEC (x, y)f (x, 7) 


特征 函数 ffX 器 关于 模型 PCY|X) 与 经 验 分 布 HeX) 的 期 望 值 用 E.G) 
表示 。 
E, NLPAPGIOG, y) 


如 果 模 型 能 够 获取 训练 数据 中 的 信息 ， 那么 就 可 以 假设 这 两 个 期 望 
值 相等 ， 即 


E,(f)=E,(/) (6.10) 
或 
,POPON Df GD) = 2 Po) (6.11) 
我 们 将 式 (6.10) 或 式 (6. 和 作为 模型 学 习 的 约束 条 件 。 假 如 有 n 个 特 


征 函 数 f(X,Y)，i 二 1,2,...,n， 那 么 就 有 n 个 约束 条 件 。 
定义 6.3( 最 大 人 模 型 〉 ”假设 满足 所 有 约束 条 件 的 模型 集合 为 


C={PeP|E,(f)= Es(f), i=b,2,,n) (Dlg 
定义 在 条 件 概率 分 布 P(Y|X) 上 的 条 件 炳 为 
HA POP 多 (6.13) 





网 人 型 和合 C 呆 条 件 箭 HP) 最 大 的 模型 称 为 最 大 炳 模型 。 式 中 的 对 数 为 
大 又 





6.2.3 ”最 大 燃 柑 型 的 学习 


最 大 入 模型 的 学 习 过 程 怠 是 求解 最 大 科 模型 的 过 程 。 最 大 炳 模型 的 
学 习 可 以 形式 化 为 约束 最 优化 问题 。 

对 于 给 定 的 训练 数据 集 T 二 {(x,，y),(X,，y,)….,(Xwy,)} 以 及 特征 函数 
f(X,Y)，i 王 12,...n， 最 大 焙 模 型 的 学 习 等 价 于 约束 最 优化 问题 ; 








max H(P)= P(x)P(y|x)log P(y|x) 


S.t. oe = 1] 
POI 


按照 最 优化 问题 的 习惯 ， 将 求 最 大 值 问 题 改 写 为 等 价 的 求 最 小 值 问 
题 : 


min -H(P)= ZAP |x)log P(y |x) (6.14) 
了 (6.15) 
2 P(y|O=1 (6.16) 


求解 约束 最 优化 问题 〈6.14) 一 〈6.16) ， 所 得 出 的 解 ， 就 是 最 大 
炉 模 型 学 习 的 解 。 下 面 给 出 具体 推导 。 

这 里 ， 将 约束 最 优化 的 原始 问题 转换 为 无 约束 最 优化 的 对 侦 问 题 
。 通 过 求解 对 侦 问 题 求解 原始 问题 。 

首先 ，5 引 进 拉 格 朗 日 乘 子 www,.….,w,， 定 义 拉 格 朗 日 函数 
L(P,w): 


L(P,w)=-H(P)+w, ( -PO | 9| + Pw(Es(f) -Ef) 
y i=| 
= P(X)P(y|x)logP(y|x)+w [ -OP 9 


> % [Ez P(x, y) f(x,y)— 2 P(x)P(y | x) f(x, | (6.17) 
最 优化 的 原始 问题 是 


min max L(P,w) (0.18) 
对 偶 问 题 是 
max min L(P,w) (6.19) 


由 于 拉 格 衣 日 函数 L(P,w) 是 P 的 是 函数 ， 原 始 问 题 〈6.18) 的 解 与 对 
偶 问 题 (6.19) 的 解 是 等 价 的 。 这 样 ， 可 以 通过 求解 对 侦 问 题 (6.19) 


来 求解 原始 问题 (6.18) 。 
。 首先， 求解 对 偶 问 题 (6.19) 内 部 的 极 小 化 问题 
是 的 函数 ， 将 其 记 作 


YWw) =minL(P,w) =L(P,,w) (6.20) 
到 (WwW) 称 为 对 偶 函 数 。 同 时 ， 将 其 解 记 作 
Pp :=arg min L(P,w)=F,(y|x) (6.21) 


具体 地 ， 求 L(P,w) 对 P(Y|X) 的 偏 导数 


i 二 Fo(og PO'| 妆 +D- 之 mm Ze Wf co 


一 a CS [xX)+1—w, 一 过 src 
令 偏 导数 等 于 0， 在 B(x)>0 的 情况 下 ， 解 得 





op [> Wfi(x, | 
PO WD-omp[Smfe D+ -1 SA . 


exp(] — w, ) 
P(y|x)=1 
由 于 1， 得 
] n 
P(y|x)= 到 ee| wj (6.22) 
Z,,(X) 2 
其 中 ， 


ww (X= Do [Sm (x | (6.23) 
y i=] 


Z (x) 称 为 规范 化 因子 ; f(X,Y) 是 特征 函数 ;，w 是 特征 的 权 值 。 由 式 
(6.22) 、 式 (6.23) 表示 的 模型 P 二 P (Y|X) 就 是 最 大 炉 模型 。 这 里 ， 
w 是 最 硕 模型 中 的 参数 向 量 。 
之 后 ， 求 解 对 侦 问 题 外 部 的 极 大 化 问题 
max Y (w) (6.24) 


将 其 解 记 为 ww， 即 
M =argmax Y¥(w) (6.25) 





这 就 是 说 ， 可 以 应 用 最 优化 算法 求 对 偶 函 数 到 (WwW) 的 极 大 化 ， 得 到 
w”， 用 来 表示 P'*EC。 这 里 ，P' 二 P.. 二 P..(Y|X) 是 学 习 到 的 最 优 模型 (最 大 
粮 模 型 ，。 也 就 是 说 ， 最 大 模 型 的 学 习 归 结 为 对 侦 函 数 园 (w) 的 极 大 


化 。 

例 6.2 ”学 习 例 6.1 中 的 最 大 箭 模型 。 

解 ” 为 了 方便 ， 分 别 以 y,y,y,y 允 表示 A，B，C，D 和 E， 于 是 最 大 
炉 模型 学 习 的 最 优化 问题 是 


min ~H(P)= YP(y,)logP(y,) 


i=] 








a a 
st. P(y)+P(y,)=P(y)+ P(y,)= 10 


> Po )=>F0 j= 
引进 拉 格 朗 日 有 WwW， 定义 拉 格 明日 函数 
up)=FPOdePO)+ (POD+ POs) -+m 立 Poo-]] 


根据 拉 格 表 日 对 偶 性 ， 可 以 通过 求解 对 侦 最 优化 问题 得 到 原始 最 优 
化 问题 的 解 ， 所 以 求解 








max min L(P, w) 
| 


首先 求解 L(P,w) 天 于 P 的 极 小 化 问题 。 为 此 ， 固 定 w,,w,， 求 偏 导 
数 : 


oL(P,w) 
BO 
oL(P, w) 
PO,) 
oP(y;) 
OL(P,w) 
Po) 
OP(y,) 
令 各 偏 导 数 等 于 0， 解 得 
ro 
P(y,)= P(y,)= P(y,)= -mi 


=1l+logP(y)+w +w 
=]l+logP(y,)+w +w, 
=1+logP(y,)+w, 
=]1+logP(y,)+w, 


=1+logP(y,)+w, 


minL(P,w)=L(P,,W) =-26™""! —36-%!— 二 Wh 
再 求解 L(P,,w) 关 于 w 的 极 大 化 问题 : 
max Z(P,W)=-2e ™"—3e™— 站 一 Wi 
分 别 求 LOP ,ww 对 w,w 的 俩 导数 并 令 其 为 0， 得 到 


一 放 一 0 一] 


> = 一 
2 
于 是 得 到 所 要 求 的 概率 分 布 为 


3 
P(y = Pty = 一 
(1)=PO> ) 0 


p 
P(y;)= P(y,)= P(y;)= 2 区 


6.2.4” 极 大 似 然 估 计 


从 以 上 最 大 业 模 型 学 习 中 可 以 看 出 ， 最 大 业 模 型 是 由 式 (6.22) 、 
式 〈6.23) 表示 的 条 件 概 率 分 布 。 下 面 证 明 对 偶 函 数 的 极 大 化 等 价 于 最 
大 入 模型 的 极 大 似 然 估 计 。 

已 知 训练 数据 的 经 验 概率 分 布 B(X,Y)， 条 件 概 率 分 布 P(Y|X) 的 对 数 
似 然 函 数 表 示 为 


Ls(P.)=logIIPO nis P(x, y)logP(y|x) 


妆 条 伯 枝 分布 PCY 是 最 大 扩 模 型 (6. 2 和 “(6.23) 时 ， 对 数 似 然 
函数 LECP ) 为 


L;(P.,)= 》Px,y)logPO'|a) 








到 2 By) wf,(X,»)— 之 P(x. y)logZ, (x) 


-2 Pr, Ww fi(x,y)— PO)logZ, (x) (6.26) 


再 看 对 个 函数 fw。 由 式 CC 及 式 (6.20) 可 得 
Y{(w) = y P(x)P, (y|x)logP,(y|x) 


Ty 


+ 》 Wi Bb P(x,y) /f(x,y)— POP (vy |) cc 
fs] ry *,) 
= 5 P(x,y)Y Ww f(x,y)+ 2 P(E (y| | logP (y|x)— Sw f(x, 中 
Ey 1=| Kx,Y i=| 
= > B(x,y)Y wf,(x,y)— >» P(x)P (y|x)logZ., (x) 
¥,y =| X,Y 


= Ye), wfi(x,y)— 2.P0)log Z,(x) (6.27) 
Pl(y|x)=1 
最 后 一 本 
比较 式 (6.26) 和 式 (6.27) ， 可 得 
¥(w)=L,(P,) 
既然 对 侦 函 数 轩 (w) 等 价 于 对 数 似 然 函 数 LE(P,)， 于 是 证 明了 最 大 灶 模 型 


学 习 中 的 对 偶 函 数 极 大 化 等 价 于 最 大 燃 模 型 的 极 大 似 然 估计 这 一 事实 。 
这 样 ， 最 大 烯 模型 的 学 习 问 题 就 转换 为 具体 求解 对 数 似 然 函数 极 大 
化 或 对 侦 函 数 极 大 化 的 问题 。 
可 以 将 最 大 炉 模 型 写成 更 一 般 的 形式 。 


| : Le 
Ry R= vf (X,Y 6.28 
we | x) 区“ se 六 wy 和 )| (0 ) 
其 中 ， 


Z,,(x)= De A | (60.29) 


这 里 ，xER'" 为 输入 ，yE{1,2,…,K} 为 输出 ，wER" 为 权 值 向 量 ，f(X,Y), i 
二 1,2,...,n 为 任意 实 值 特征 函数 。 

最 大 燃 模 型 与 逻辑 斯 训 回 归 模 型 有 类 似 的 形式 ， 它 们 又 称 为 对 数 线 
性 模型 (log linear model) 。 模 型 学 习 就 是 在 给 定 的 训练 数据 条 件 下 对 
模型 进行 极 大 似 然 估计 或 正则 化 的 极 大 似 然 估 计 。 


6.3 ”模型 学 习 的 最 优化 算法 


逻辑 斯 详 回 归 模 型 、 最 大 精 模 型 学 习 归 结 为 以 似 然 函 数 为 目标 函数 
的 最 优化 问题 ， 通 利通 过 友 代 算法 求解 。 从 最 优化 的 观点 看 ， 这 时 的 目 
标 函 数 具 有 很 好 的 性 质 。 它 是 光滑 的 凸 函 数 ， 因 此 多 种 最 优化 的 方法 都 
适用 ， 保 证 能 找到 全 局 最 优 解 。 常 用 的 方法 有 改进 的 达 代 尺度 法 、 梯 拔 
下 降 法 、 牛 顿 法 或 拟 牛 顿 法 。 牛 顿 法 或 拟 牛 顿 法 一 般 收敛 速度 更 快 。 

下 面 介绍 基于 改进 的 迭代 尺度 法 与 拟 牛 顿 法 的 最 大 炳 模型 学 习 算 
法 。 梯 度 下 降 法 参阅 附录 A。 


6.3.1 改进 的 达 代 尺度 法 
改进 的 迭代 尺度 法 (improved iterative scaling，IS) 是 一 种 最 大 蚁 
模型 学 习 的 最 优化 算法 。 
己 知 最 大 燃 模 型 为 
P,(y|x)= 





























二 en| > w, f.(X, | 


y 
/ 
于 


2 os Ze 人 wfi(%, | 
对 数 似 然 函 数 为 
L(w)= 2 Dw HP) 2 PO logZ, GO) 
目标 是 通 过 极 大 似 然 信 计 学 习 模型 参数 ， 即 求 对 数 似 然 函 数 的 极 大 信 视 


IIS 的 想法 是 : 假设 最 磊 模型 当前 的 参数 向 量 是 w 二 (ww, 
.…W,)， 我 们 希望 找到 一 个 新 的 参数 癌 量 w+0 二 (w+0 ,w+0,...,w.+0,)， 
使 得 模型 的 对 数 似 然 函数 值 增 大 。 如 果 能 有 这 样 一 种 参数 向 量 更 新 的 方 
法 CV(w):w-w+6， 那 么 就 可 以 重复 使 用 这 一 方法 ， 直 至 找到 对 数 似 然 函 
数 的 最 大 值 。 

于 给 定 的 经 验 分 } 布 P(X,Y)， 模 型 参数 从 w 到 w+6， 对 数 似 然 函 数 
D 


Le+ 6)-L0) = TP y)logP,,(y|x)— 2 y)logP (y|x) 





“2 XA y)— PV log a 


利用 不 等 式 
-loga 宇 l-Qa, a>0 


建 并 对 数 似 然 函数 改变 量 的 下 界 : 


Uwto) -WZ ht DX fl +1l- DP ee 


EN RS PR 
将 右 端 记 为 i | 
AGIW= EPO Yo) +1- DPT Pl Verp Ys fe) 
a, - 4 
L(w+o)—L(w) 三 A(0 | w) 


即 A(O|w) 是 对 数 似 然 函 数 改 变量 的 一 个 下 界 。 
如 果 能 找到 适当 的 6 使 下 界 A(6|w) 提 高 ， 那 么 对 数 似 然 函数 也 会 提 








高 。 然 而 ， 函 数 A(OlIw) 中 的 6 是 一 个 向 量 ， 含 有 多 个 变量 ， 不 易 同时 优 
化 。IIS 试 图 一 次 只 优化 其 中 一 个 变量 8， 而 固定 其 他 变量 6 ，izj。 

为 达到 这 一 目的 ，IIS 进 一 步 降 低下 界 A(6lw)。 上 有 具体 地 ，IIS5 引 进 一 
个 量 f(X,Y)， 





f(x)=2, f(x,)) 


因为 f 是 二 值 函数 ， 故 f(x,y) 表 示 所 有 特征 在 (X,Y) 出 现 的 次 数 。 这 样 ， 
A(OIw) 可 以 改写 为 


AOIW= PC DSC +1- 过 AD2 oloes|7 (x, We - 


f° (x,y) 
(6.30) 

je 人 ~ PN 

利用 指数 函数 的 凸 性 以 及 对 任意 ti， 有 上 三 er 台 关 GD 帮 ” 二 事实 ， 根 

据 Jensen 不 等 式 ， 得 到 


oq f(x,y) a "Gey 中 < es xp(6 Fe 由 
于 是 式 (6.30) a 
A(6| A MA: J))+l -之 DZ EY re 











f(x,») 


LE jwny “(x,»)) 


(6.31) 
记 不 等 式 〈6.31) 右 端 为 
B(6 | w) = >; P(x,y)Y 6 fx, y)+1-— PC p(y| | A jspGrem 
于 是 得 到 
ZWwW+O) 一 LOO) 三 BO WwW) 
里 ，B(OIw) 是 对 数 似 然 函 数 改变 量 的 一 个 新 的 〈 相 对 不 紧 的 ) 下 界 。 
求 B(O|w) 对 6 的 偏 导数 : 
9 -= > P(x,y)f (x, y)— 和 P(x)> P(y|x)f(x,y)exp(o f° (x,y)) 
(6.32) 
在 式 〈6.32) 里 ， 除 6 外 不 含 任何 其 他 变量 。 令 偏 导 数 为 0 得 到 


2 POP NA y) erp (x,y)) =E;(f) (6.33) 


于 是 ， 依 次 对 5 求解 方程 (6.33) 可 以 求 出 5。 

这 就 给 出 了 一 种 求 w 的 最 优 解 的 迭代 算法 ， 即 改进 的 迭代 尺度 算法 
IIS 。 

算法 6.1〈 改 进 的 欠 代 尺度 算法 IIS ) 

输入 : 特征 函数 f,f,..,f;， 经 验 分 布 P(X,Y)， 模 型 P (Y|X) 

输出 : 最 优 参 数值 W;， 最 优 模型 P .。 

(1) 对 所 有 iE{1,2,...,n}， 取 初 值 w 二 0 

(2) 对 每 一 iE{1,2,...,n}): 

(a) 令 O 是 方程 


2 POOPO ORG) enp(6 (5) = EU 
的 解 ， 这 里 ， 





f° x8)= 2 f(D) 


(b) 更 新 w 值 : w w+6 
(3) 如 果 不 是 所 有 w 都 收敛 ， 重 复 步 (2) 。 

这 一 算法 关键 的 一 步 是 (a)， 即 求解 方程 (6.33) 中 的 6 。 如 果 f 
(X,Y) 是 常数 ， 即 对 任何 x,y， 有 f*(X,Y) 二 M， 那 么 6 可 以 显 式 地 表示 成 
5 = 了 (6.34) 

人 
如 果 f(X,Y) 不 是 常数 ， 那 么 必须 通过 数值 计算 求 6 。 简 单 有 效 的 方 
法 是 牛顿 法 。 以 g(5) 一 0 表示 方程 (6.33) ， 牛 顿 法 通过 迭代 求 得 外， 使 
得 g(9; ) 王 0。 和 迭代 公式 是 
g(6")) 
g'(6") 
只 要 适当 选取 初始 值 S ”， 由 于 6 的 方程 (6.33) 有 单 根 ， 因 此 牛顿 法 恒 
收 你 ， 而 且 收 敛 速 度 很 快 。 


6.3.2” 拟 牛顿 法 





(+ (有 
O -5 


t i 





(6.35) 





最 大 信 模 型 学 习 还 可 以 应 用 牛顿 法 或 拟 牛 顿 法 。 参 阅 附录 B。 
对 于 最 大 燃 模 型 而 言 ， 
exp | 人 w, f(x,y) | 


f=] 








Rll 
六 exp | wf,(X, | 
) i=] 
目标 函数 : 
min /(w)= > P(x) osZem| w fi(x, »]- 2 Per) we 驮 
梯度 : 
g(W) = Ca Ad 基 | 
Ow, Ow, Ow, 
人 人 中 


-2 POP, OI »)-E,(f), i=1,2,…,n 


相应 pe 

算法 6.2《〈 最 大 灶 模 型 学 习 的 BFGS 算 法 ) 

输入 : 特征 函数 f,f,.…..,f'; 经 验 分 布 EX,Y)， 目 标 函 数 f(w), 梯 度 g(w) 
二 Vf(w), 精 度 要 求 €，; 

输出 : 最 优 参数 值 w; 最 优 模型 P .(Y|X)。 

(1) 选 定 初始 点 w*， 取 B 为 正定 对 称 矩 阵 ， 置 k=0 

(2) 计算 g 二 g(w”)。 若 lg 上 < 台 ， 则 停止 计算 ， 得 w’ 二 w%; 否则 转 
(3) 

(3) 由 B p 一-g 求 出 p， 

(4) 一 维 搜索 : 求 4 使 得 

fw +hp,)= min f(w" + 4p,) 


(5) 置 wo 二 wo+MDp， 
(6) 计算 g. 王 g(we)， 若 llg.<E， 则 停止 计算 ， 得 w 王 wo 否 
则 ， 按 下 式 求 出 B，: 





EN A 
Te sTP R 





B=B.+ 


~、 中 > 
WA 人 


3 0, ~ w+) ee 
(7) 置 k=k+1, 转 (3) 。 


本 前 概 要 


1. 逻辑 斯 详 回 归 模 型 是 由 以 下 条 件 概率 分 布 表示 的 分 类 模型 。 逻 
辑 斯 谤 回归 模型 可 以 用 于 二 类 或 多 类 分 类 ，。 
P(r |  ， 


I+ explw,. x) 


P(Y = 天 |x)= . 
+E exp 


，X 为 输入 特征 ，w 为 特征 的 权 值 。 
2 其 分 布 函数 F( 是 S 形 函 
s 逻辑 斯 请 回 归 模 型 是 由 输入 的 线性 函数 表示 的 输出 的 对 数 几 率 模 
2， 最 大 炳 模型 是 由 以 下 条 Se ) 类 模型 。 最 大 人 模 
型 也 可 以 用 于 二 类 或 多 类 分 类 


Z, (六 = Ze 人 wf co 
y j=] 


其 中 ，Z.(x) 是 规范 化 因子 ，f 为 特征 函数 ，w 为 特征 的 权 值 。 
3， 最 硕 模型 可 以 由 最 大 粹 原理 推导 得 出 。 最 大 粹 原理 是 概率 模 
型 学 习 或 估计 的 一 个 准则 。 最 大 糖 原理 认 为 在 所 有 可 能 的 概率 模型 〈 分 
布 ) 的 集合 中 ， 糯 最 大 的 模型 是 最 好 的 模型 。 
最 大 坑 原理 应 用 到 分 类 模型 的 学 习 中 ， 有 以 下 约束 最 优化 问题 : 





k=1,2,.…,K—!1 











P(y|x)= 














min —H(P)= 六 P(x)P(y|x)log P(y|x) 


,1 


st. P(f)-P(f)=0, i=1,2,:…,n 
> PL] 


求解 此 最 优化 问题 的 对 侦 问 题 得 到 最 大 燃 模 型 。 

4. 人 逻辑 斯 诺 回 归 模 型 与 最 大 燃 模 型 都 属于 对 数 线 性 模型 。 

5. 逻辑 斯 详 回 归 模 型 及 最 大 精 模 型 学 习 一 般 采 用 极 大 似 然 估 计 ， 
或 正则 化 的 极 大 似 然 估计 。 逻 辑 斯 诺 回 归 模 型 及 最 大 燃 模 型 学 习 可 以 形 
式 化 为 无 约束 最 优化 问题 。 求 解 该 最 优化 问题 的 算法 有 改进 的 迭代 尺度 
法 、 梯 度 下 降 法 、 拟 牛顿 法 。 


继续 阅读 


逻辑 斯 谤 回归 的 介绍 参见 文献 [1]， 最 大 灶 模 型 的 介绍 参见 文献 
[2,3]。 风 辑 斯 诺 回 归 模 型 与 村 系 贝 叶 斯 模型 的 关系 参见 文献 [4]， 远 辑 斯 
详 回 归 模 型 与 AdaBoost 的 关系 参见 文献 [5]， 逻 辑 斯 诺 回 归 模 型 与 核 函 数 
的 关系 参见 文献 [6]。 














习题 


6.1 确认 逻辑 斯 详 分 布 属于 指数 分 布 族 。 
6.2 写 出 逻辑 斯 庄 回 归 模 型 学 习 的 梯度 下 降 算 法 。 
6.3 写 出 最 大 业 模 型 学 习 的 DFP 算 法 。 (关于 一 般 的 DFP 算 法 参见 


附录 BB) 
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注释 

此 例 来 自 参 考 文献 [1]。 

单纯 形 是 在 n 维 欧 氏 空间 中 的 n+1 个 仿 射 无 关 的 点 的 集合 的 凸 包 。 
一 般 地 ， 特 征 函 数 可 以 是 任意 实 值 函数 。 

参阅 附录 C。 








EBEBE 


第 7 草 ” 文 持 同 量 机 


支持 向 量 机 (support vector machines，SVM) 是 一 种 二 类 分 类 模 
型 。 它 的 基本 模型 是 定义 在 特征 空间 上 的 间隔 最 大 的 线性 分 类 器 ， 间 隔 
最 大 使 它 有 别 于 感知 机 ; 文 持 问 量 机 还 包括 核 技 巧 ， 这 使 它 成 为 实质 上 
的 非 线 性 分 类 器 。 文 持 问 量 机 的 学 习 策 略 就 是 间 隅 最 大 化 ， 可 形式 化 为 
一 个 求解 凸 二 次 规划 〈convex quadratic programming) 的 问题 ， 也 等 价 
于 正则 化 的 合 页 损失 函数 的 最 小 化 问题 。 文 持 回 量 机 的 学 习 算 法 是 求解 
上 四 二 次 规划 的 最 优化 算法 。 

文 持 向 量 机 学 习 方法 包含 构建 由 简 至 繁 的 模型 : 线性 可 分 文 持 问 量 
机 (linear support vector machine in linearly separable case) 、 线 性 文 持 
癌 量 机 (linear support vector machine) 及 非 线性 支持 向 量 机 (non-linear 
support vector machine) 。 简 单 模型 是 复杂 模型 的 基础 ， 也 是 复杂 模型 
的 特殊 情况 。 当 训练 数据 线性 可 分 时 ， 通 过 便 间 隔 最 大 化 (hard margin 
maximization〉)， 学 习 一 个 线性 的 分 类 器 ， 即 线性 可 分 支持 问 量 机 ， 叉 
称 为 硬 间 隅 文 持 向 量 机 ， 当 训练 数据 近似 线性 可 分 时 ， 通 过 软 间隔 最 大 
化 (soft margin maximization) ， 也 学 习 一 个 线性 的 分 类 器 ， 即 线性 文 
持 同 量 机 ， 又 称 为 软 间隔 支持 问 量 机 ;， 当 训练 数据 线性 不 可 分 时 ， 通 过 
使 用 核 技 巧 〈kernel trick〉 及 软 间 隔 最 大 化 ， 学 习 非 线性 支持 同 量 机 。 

当 输 入 空间 为 欧 氏 空间 或 离散 集合 、 特 征 空间 为 希 尔 伯 特 空间 时 ， 
核 函 数 (kernel function)〉 表示 将 输入 从 输入 空间 映射 到 特征 空间 得 到 的 
特征 同 量 之 间 的 内 积 。 通 过 使 用 核 函数 可 以 学 习 非 线性 支持 同 量 机 ， 等 
价 于 隐 式 地 在 高 维 的 特征 空间 中 学 习 线 性 文 持 向 量 机 。 这 样 的 方法 称 为 
2 核 方 法 (kernel method) 是 比 文 持 问 量 机 更 为 一 般 的 机 费 学 习 
2 

Cortes 与 Vapnik 提 出 线性 支持 癌 量 机 ，Boser、Guyon 与 Vapnik 义 引 
入 核 技巧 ， 提 出 非 线 性 文 持 向 量 机 。 

本 章 按照 上 述 思 路 介绍 3 类 文 持 向 量 机 、 核 函数 及 一 种 快速 学 习 算 
法 一 一 序列 最 小 最 优化 算法 (SMO) 。 


7.1 线性 可 分 文 持 同 量 机 与 硬 间 隔 最 大 化 
7.1.1 线性 可 分 支持 同 量 机 



































考虑 一 个 二 类 分 类 问题 。 假 设 输入 空间 与 特征 空间 为 两 个 不 同 的 空 
间 。 输 入 空间 为 欧 氏 空间 或 离散 集合 ， 特 征 空间 为 欧 氏 空间 或 希 尔 伯 特 
空间 。 线 性 可 分 文 持 向 量 机 、 线 性 文 持 向 量 机 假设 这 两 个 空间 的 元 素 一 
一 对 应 ， 并 将 输入 空间 中 的 输入 映射 为 特征 空间 中 的 特征 同 量 。 非 线性 
文 持 向 量 机 利用 一 个 从 输入 空间 到 特征 空间 的 非 线 性 映射 将 输入 映射 为 
特征 向 量 。 所 以 ， 输 入 都 由 输入 空间 转换 到 特征 空间 ， 支 持 向 量 机 的 学 
习 是 在 特征 空间 进行 的 。 

假设 给 定 一 个 特征 空间 上 的 训练 数据 集 

7 = 全 0 7) (Xs 2), ,Xs Vw)} 

其 中 ，xEx 二 R"，yE 站 二 {+1,-1}，i 二 1,2,.…..,N，x 为 第 i 个 特征 向 量 ， 
也 称 为 实例 ，y 为 x 的 类 标记 ， 当 y 二 +1 时 ， 称 x 为 正 例 ， 当 y= 二 -1 时 ， 称 
x 为 负 例 ，(x,，y) 称 为 样本 点 。 再 假设 训练 数据 集 是 线性 可 分 的 ( 见 定 
2 

学 习 的 目标 是 在 特征 空间 中 找到 一 个 分 离 超 平面 ， 能 将 实例 分 到 不 
同 的 类 。 分 离 超 平面 对 应 于 方程 w:x+b 二 0， 它 由 法 向 量 w 和 截 距 b 决 
定 ， 可 用 (w,b) 来 表示 。 分 离 超 平面 将 特征 空间 划分 为 两 部 分 ， 一 部 分 是 
正 类 ， 一 部 分 是 负 类 。 法 向 量 指向 的 一 侧 为 正 类 ， 另 一 侧 为 负 类 。 

一 般 地 ， 当 训练 数据 集 线 性 可 分 时 ， 存 在 无 穷 个 分 离 超 平面 可 将 两 
类 数据 正确 分 开 。 感 知 机 利用 误 分 类 最 小 的 策略 ， 求 得 分 离 超 平面 ， 不 
过 这 时 的 解 有 无 穷 多 个 。 线 性 可 分 支持 向 量 机 利用 间隔 最 大 化 求 最 优 分 
离 超 平面 ， 这 时 ， 解 是 唯一 的 。 

定义 7.1〈 线 性 可 分 支持 向 量 机 ) ”给 定 线性 可 分 训练 数据 集 ， 通 
过 间隔 最 大 化 或 等 价 地 求解 相应 的 凸 二 次 规划 问题 学 习 得 到 的 分 离 超 平 














w -Xx+b =0 CTE) 
以 及 相应 的 分 类 决策 函数 
f(x)=sign(w .x+b") (7 .2 


称 为 线性 可 分 支持 问 量 机 。 

考虑 如 图 7.1 所 示 的 二 维特 征 空间 中 的 分 类 问题 。 图 中 “o” 表 示 正 
例 ，“x” 表 示 负 例 。 训 练 数据 集 线 性 可 分 ， 这 时 有 许多 直线 能 将 两 类 数 
据 正确 划分 。 线 性 可 分 支持 向 量 机 对 应 着 将 两 类 数据 正确 划分 并 且 间 隔 
最 大 的 直线 ， 如 图 7.1 所 示 。 











图 7.1 二 类 分 类 问题 


间隔 最 大 及 相应 的 约束 最 优化 问题 将 在 下 面 叙 述 。 这 里 先 介绍 函数 





间隔 和 几何 间隔 的 概念 。 
7.1.2 ”函数 间隔 和 几何 间隔 


在 图 7.1 中 ， 有 A，B，C 三 个 点 ， 表 示 3 个 实例 ， 均 在 分 离 超 平面 的 
正 类 一 侧 ， 预 测 它 们 的 类 。 点 A 距 分 离 超 平面 较 远 ， 奉 预测 该 点 为 下 
类 ， 束 比较 确信 预测 是 正确 的 ， 点 C 距 分 离 超 平 面 较 近 ， 知 预测 该 点 为 
人 点 B 介 于 点 A 与 C 之 间 ， 预 测 其 为 正 类 的 确信 度 也 在 
A 与 C 之 间 。 

- 役 来 说 ， 一 个 点 距离 分 离 超 平面 的 远近 可 以 表示 分 类 预测 的 确信 
程度 。 在 超 平面 wx+b 三 0 确定 的 情况 下 ，|w:x+b| 能 够 相对 地 表示 点 X 距 
离 超 平 面 的 远近 。 而 wx+b 的 符号 与 类 标记 y 的 符号 是 人 否 一 致 能 够 表示 分 
类 是 否 正 确 。 所 以 可 用 量 y(w:x+b) 来 表示 分 类 的 正确 性 及 确信 上 度 ， 这 束 
是 函数 间隔 (functional margin) 的 概念 。 

定义 7.2《〈 函 数 间隔 ) ”对 于 给 定 的 训练 数据 集 T 和 超 平面 (w,b)， 定 

义 超 平面 (wb) 关 于 样本 点 X，y) 的 函数 间隔 为 

p= yw +b) (7.3) 
定义 超 平面 (w,b) 关 于 训练 数据 集 T 的 函数 间隔 为 超 平 面 (w,b) 关 于 T 中 所 
有 样本 点 X，y) 的 函数 间隔 之 最 小 值 ， 即 

Y= min y, (7.4) 

函数 间 隅 可 以 表示 分 类 预测 的 正确 性 及 确信 度 。 但 是 选择 分 离 超 平 
面 时 ， 只 有 函数 间隔 还 不 够 。 因 为 只 要 成 比例 地 改变 w 和 b， 例 如 将 它 
们 改 为 2w 和 2b， 超 平面 并 没有 改变 ， 但 函数 间隔 却 成 为 原来 的 2 倍 。 这 















































一 事实 局 示 我 们 ， 可 以 对 分 离 超 平面 的 法 向 量 w 加 某 些 约束 ， 如 规范 
化 ，||wl| 二 1， 使 得 间隔 是 确定 的 。 这 时 函数 间隔 成 为 几何 间隔 
(geometric margin) 。 

图 7.2 给 出 了 超 平 面 (w,b) 及 其 法 向 量 w。 扣 A 表示 某 一 实例 x， 其 类 
标记 为 y 三 +1。 点 A 与 超 平面 (wb) 的 距离 由 线段 AB 给 出 ， 记 作 / 。 


w p 
py# i 和 站 
will 











呵 
其 中 ，||wl| 为 w 的 L, 范 数 。 这 是 点 A 在 超 平面 正 的 一 侧 的 情形 。 如 果 点 A 
在 超 平面 负 的 一 侧 ， 即 y 二 -1， 那 么 点 与 超 平面 的 距离 为 


g --| w es pb | 
| wll "liwll 
一 般 地 ， 当 样本 点 (x，y) 被 超 平面 (w,b) 正 确 分 类 时 ， 点 x 与 超 平面 


(w,b) 的 距离 是 
= [2 s+] 
wl iwl 


由 这 一 事实 导出 几何 间隔 的 概念 。 




















图 7.2 ”几何 间隔 


定义 7.3《〈 几 何 间 隔 ) “对 于 给 定 的 训练 数据 集 T 和 超 平 面 (wb)， 秆 
义 超 平面 (w,b) 关 于 样本 点 (x，y) 的 几何 间隔 为 


= »| 于 “xX 十 Crm 
wl wll 
定义 超 平面 (w,b) 关 于 训练 数据 集 T 的 几何 间隔 为 超 平面 (w,b) 关 于 T 














中 所 有 样本 点 (x，y) 的 几何 间隔 之 最 小 值 ， 即 
/= min y. (7.6) 


超 平 面 (w,b) 关 于 样本 点 (Xx，y) 的 几何 间隔 一 般 是 实例 点 到 超 平 面 的 
带 符号 的 距离 (signed distance) ， 当 样本 点 被 超 平面 正确 分 类 时 就 是 实 
例 点 到 超 平 面 的 距离 。 

从 函数 间隔 和 几何 间隔 的 定义 〈 式 〈7.3) 一 式 〈7.6) ) 可 知 ， 函 
数 间 隔 和 几何 间隔 有 下 面 的 关系 : 


Y 














y = 一 (7.7) 
wi 
(7.8) 





wl 
如 果 ||lw|| 二 1， 那 么 函数 间隔 和 几何 间隔 相等 。 如 果 超 平面 参数 w 和 b 成 
0 
隔 不 变 。 











7.1.3 ”间隔 最 大 化 


支持 癌 量 机 学 习 的 基本 想法 是 求解 能 够 正确 划分 训练 数据 集 并 且 几 
何 间隔 最 大 的 分 离 超 平面 。 对 线性 可 分 的 训练 数据 集 而 言 ， 线 性 可 分 分 
离 超 平面 有 无 穷 多 个 《等 价 于 感知 机 ) ， 但 是 几何 间隔 最 大 的 分 离 超 平 
面 是 唯一 的 。 这 里 的 间隔 最 大 化 又 称 为 便 间 隔 最 大 化 《与 将 要 讨论 的 训 
练 数据 集 近 似 线性 可 分 时 的 软 间隔 最 大 化 相对 应 ) 。 

间隔 最 大 化 的 直观 解释 是 : 对 训练 数据 集 找到 几何 间隔 最 大 的 超 平 
面 意味 着 以 充分 大 的 确信 和 度 对 训练 数据 进行 分 类 。 也 就 是 说 ,不仅 将 正 
负 实 例 点 分 开 ， 而 且 对 最 难 分 的 实例 点 ( 离 超 平面 最 近 的 点 ) 也 有 足够 
Oe 
类 预测 能 


1. 最 大 间隔 分 离 超 平面 


下 面 考虑 如 何 求 得 一 个 几何 间隔 最 大 的 分 离 超 平面 ， 即 最 大 间隔 分 
离 超 平面 。 有 具体 地 ， 这 个 问题 可 以 表示 为 下 面 的 约束 最 优化 问题 : 
































max y (7:9) 





S.t. »| 2 + > tsb N (7.10) 
wll wl 
即 我 们 希望 最 大 化 超 平面 (w,b) 关 于 训练 数据 集 的 儿 何 间隔 :， 约 束 条 件 
表示 的 是 超 平面 (w,b) 关 于 每 个 训练 样本 点 的 几何 间隔 至 少 是 六 。 
考虑 几何 间隔 和 函数 间隔 的 关系 式 〈《7.8) ， 可 将 这 个 问题 改写 为 

















(7.11) 
“> wl 
St. ywx+b)7, i=1,2,.…,N (C712) 


函数 间隔 7 的 取 值 并 不 影响 最 优化 问题 的 解 。 事 实 上 ， 假 设 将 w 和 b 
按 比 例 改 变 为 4w 和 4b， 这 时 函数 间 隅 成 为 4z。 函 数 间 隔 的 这 一 改变 对 
上 面 最 优化 问题 的 不 等 式 约 束 没 有 影响 ， 对 目标 函数 的 优化 也 没有 影 
啊 ， 也 惑 是 说 ， 蕊 产生 一 个 等 价 的 最 优化 问题 。 这 样 ， 就 可 以 取 7 二 1。 
将 ;一 1 代入 上 面 的 最 优化 问题 ， 注 意 到 最 大 化 fl 和 最 小 化 站 w|} 是 等 价 
的 ， 于 是 就 得 到 下 面 的 线性 可 分 文 持 问 量 机 学 习 的 最 优化 问题 


eb ; 
min > (7:13) 











Sst. ywx+b)-l0, i=1,2,…,N (7.14) 


日 


这 是 一 个 凸 二 次 规划 (convex quadratic programming ) 问题 。 
止 优化 问题 是 指 约 束 最 优化 问题 


min f(w) (7.15) 
st. gw)0, i=1,2,…,k (7.16) 
h(w)=0, i=1,2,…,! CE LL) 


其 中 ， 目 标 函 数 fw) 和 约束 函数 g(w) 都 是 R" 上 的 连续 可 微 的 凸 函数 ， 约 
束 函 数 h(w) 是 R" 上 的 仿 射 函数 u。 

当 目 标 函 数 ff(w) 是 二 次 函数 且 约 束 函 数 g(w) 是 仿 射 函数 时 ， 上 述 四 
最 优化 问题 成 为 凸 二 次 规划 问题 。 

如 果 求 出 了 约束 最 优化 问题 (7.13) 一 〈7.14) 的 解 w,b*"， 那 么 就 
可 以 得 到 最 大 间隔 分 离 超 平面 w…x+b' 二 0 及 分 类 决策 函数 f(x) 二 








sign(w…x+b)， 即 线性 可 分 文 持 向 量 机 模型 。 

综 上 上 所 述 ， 就 有 下 面 的 线性 可 分 支持 同 量 机 的 学 习 算 法 一 一 最 大 间 
隔 法 (maximum margin method) 。 

算法 7.1《〈 线 性 可 分 文 持 问 量 机 学 习 算 法 一 一 最 大 间隔 法 ) 

输入 : 线性 可 分 训练 数据 集 T== 0 7),(X,， 了 7,),…,(Xwy)}， 其 中 ， 
xEx=R", yEY={-1,+1}, i=1,2,. 

输出 : 最 大 问 隐 分 世 超 平 曾 和 分 类 决 策 函 数 。 

(1) 构造 并 求解 约束 最 优化 问题 : 


] 
min 一 | 
wb 2 








St. ywx+b)-1l=0, i=1,2,.…,N 
求 得 最 优 解 ,w',b'。 
(2) 由 此 得 到 分 离 超 平面 : 





W .XxX+b =0 
分 类 决策 函数 
f(x)=sign(w .x+b") 四 





2. 最 大 间隔 分 离 超 平面 的 存在 唯一 性 


线性 可 分 ee i a 的 。 

定理 7.1 (最 大 间隔 分 离 超 平面 的 存在 唯一 性 ) ” 若 训 练 数 据 集 T 
线性 可 分 ， 则 可 将 训练 数据 集中 的 样本 点 完全 正确 分 开 的 最 大 间隔 分 离 
超 平面 存在 且 唯 一 。 

证 明 (1) 存在 性 

由 于 训练 数据 集 线 性 可 分 ， 所 以 算法 7.1 中 的 最 优化 问题 (7.13) 一 
(7.14) 一 定 存在 可 行 解 。 0 数 有 下 界 ， 所 以 最 优化 问题 
(7.13) 一 (7.14) 必 有 人 解 ， 记 作 (wb’)。 由 于 训练 数据 集中 既 有 正 类 点 
又 有 人 负 类 点 ， 所 以 (w,b) 二 (0,b) 不 是 最 优化 的 可 行 解 ， 因 而 最 优 解 (w',b’) 
a 分 离 超 平面 的 存在 性 。 

(2) 

首先 证 明 最 优化 问题 (7.13〉 一 《〈7.14) 解 中 w` 的 唯一 性 。 假 设 问 
题 〈7.13) ~ (7.14) Wy i ,名 )。 显 然 上 三 上 |= 


c， 其 中 c 是 一 个 常数 。 令 ”= 2 “ "= 2 ， 易 知 (wb) 是 问题 (7.13) 


一 《7.14) 的 可 行 解 ， 从 而 有 


























c<|Iwll<- 5 + wll=e 


上 式 表 明 ， 式 中 的 不 等 号 ee 
一 和 2， 人 网 = 1。 若 有 =-1， 则 w= 二 0，(w,b) 不 是 问题 (7.13) ~ (7.14) 
的 可 行 解 ， 矛盾 。 因 此 必 有 4 二 1， 即 
W =W 

由 此 可 以 把 两 个 最 优 解 (% 的 和 0 名 ,如 ) 分 别 写成 (w, 的 和 (w, 如 )。 再 
证 二名。 设 *# 和 是 集合 {xjy, 二 +1} 中 分 别 对 应 于 (w, 全 ) 和 (w, 如 ) 使 得 问 
题 的 不 等 式 等 号 成 立 的 点 ， “和 = 征集 合 { 一 -中 分 别 对 应 于 (w， 名 和 
(ww 的 使 得 问题 的 不 等 式 等 号 成 立 的 点 ， 则 由 让 -werw'- 二 ， 大 一 
(w- Vtw ™) 得 


bb = 
又 因为 


WwW -x 十 和 过 1=Ww -H+b 
Ww :x+bhb, 宇 l=w :xX +b, 
所 以 ，w*…(W- 忆 二 0。 同 理 有 w”…(*- 区 ) 二 0。 因 此 ， 
br -b=0 
0 两 个 最 优 解 (W 加) 和 (w2 名 ) 是 相同 的 ， 解 的 唯一 
”出 间 题 (7.13) 一 《7.14) 解 的 唯一 性 即 得 分 离 超 平面 是 唯一 的 。 


(3) 分 离 超 平面 能 将 训练 数据 集中 的 两 类 点 完全 正确 地 分 开 。 
由 解 满足 问题 的 约束 条 件 即 可 得 知 。 


3. 文 持 同 量 和 间隔 边界 


在 线性 可 分 情况 下 ， 训 练 数据 集 的 样本 点 中 与 分 离 超 平面 距离 最 近 
J 尔 为 支持 向 量 (support vector) 。 支 持 向 量 是 使 约束 条 
件 式 (7.14) 等 号 成 立 的 点 ， 即 

y(wx+b)—1=0 


对 y 二 +1 的 正 例 点 ， 支 持 向 量 在 超 平面 














:wx+D=] 
上 ， 对 y 二 -1 的 负 例 点 ， 文 持 问 量 在 超 平面 
H, :w.x+b=-l 
上 。 如 图 7.3 所 示 ， 在 HL 和 H, 上 的 点 就 是 支持 向 量 。 

















图 7.3 ”支持 癌 量 





注意 到 H 和 了 HH 平行 ， 并 且 没 有 实例 点 落 在 它们 中 间 。 在 H 与 HH 之 间 
形成 一 条 长 带 ， 分 离 超 平面 与 它们 平行 且 位 于 它们 中 央 。 长 带 的 宽度 ， 
即 H, 与 H, 之 间 的 距离 称 为 间隔 (margin〉。 间 隔 依 赖 于 分 离 超 平面 的 法 
器 量 w， 等 于 MH, 和 H, 称 为 间 阳 边界 。 

在 决定 分 离 超 平面 时 只 有 文 持 问 量 起 作用 ， 而 其 他 实例 点 并 不 起 作 
用 。 如 果 移 动 文 持 癌 量 将 改变 所 求 的 解 ; 但 是 如 条 在 间隔 边界 以 外 移动 
其 他 实例 点 ， 甚 至 去 掉 这 些 点 ， 则 解 是 不 会 改变 的 。 由 于 支持 向量 在 确 
定 分 离 超 平 面 中 起 独 决 定性 作用 ， 所 以 将 这 种 分 类 模型 称 为 文 持 癌 量 
0 所 以 支持 向 量 机 由 很 少 的 “重要 的 ”训练 
羊 本 确定 。 

例 7.1 ”数据 与 例 2.1 相 同 。 己 知 一 个 如 图 7.4 所 示 的 训练 数据 集 ， 其 


正 例 点 是 x, 一 (3,3)，x, 一 (4,3)， 负 例 点 是 x, 一 (1,1)， 试 求 最 大 间隔 分 离 
超 平面 。 
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iD LU 上 请 (nn 





和 x(l) 
图 7.4 间隔 最 大 分 离 超 平面 示例 


解 ”按照 算法 7.1， 根 据 训练 数据 集 构 造 约束 最 优化 问题 : 


. ] 了 了 
min 一 (W 十 W ) 
Wp 2 > 











St. 3w +3w,+b 二 1 
4w +3w, +b 二 1 


—w—w,—b 二 1 
| 
求 得 此 最 优化 问题 的 解 w 二 w, 二 2，b 二 -2。 于 是 最 大 间隔 分 离 超 平面 为 
Ld Li op 
2 2 


其 中 ,x 二 (3,3)' 与 %, 二 (1,1) 为 支持 向 量 ， 


7.1.4 ”学 习 的 对 侦 算 法 


为 了 求解 线性 可 分 支持 向 量 机 的 最 优化 问题 (7.13) 一 〈7.14) ， 
将 它 作 为 原始 最 优化 问题 ， 应 用 拉 格 朗 日 对 偶 性 《参阅 附 录 C) ， 通 过 
求解 对 偶 问 题 (dual problem) 得 到 原始 问题 (primal problem) 的 最 优 
解 ， 这 就 是 线性 可 分 支持 同 量 机 的 对 个 算法 (dual algorithm) 。 这 样 做 
的 优点 ， 一 是 对 偶 问 题 往往 更 容易 求解 ， 二 是 自然 引入 核 函 数 ， 进 而 推 
广 到 非 线 性 分 类 问题 。 

首先 构建 拉 格 明 日 函数 (Lagrange ”function)〉。 为 此 ， 对 每 一 个 不 
等 式 约束 (7.14) 引进 拉 格 朗 日 乘 子 (Lagrange multiplier) a>0，i 二 1,2， 











..JN， 定 义 拉 格 朗 日 函数 : 
L(W,p,w)= wl -Vay (wx +p)+ Ya (7.18) 
包 i=] i=] 


其 中 ，a 一 (a,a….ayJ 为 拉 格 明日 乘 子 癌 量 。 
根据 拉 格 衣 日 对 俩 性 ， 原 始 问 题 的 对 俩 问题 是 极 大 极 小 问题 : 
max min L(w,p,a) 
所 以 ， 为 了 得 到 对 偶 问 题 的 解 ， 需 要 先 求 L(w,b,a) 对 wb 的 极 小 ， 再 求 对 


a 的 极 大 。 
C1) 求 mm L(w,b,a) 


将 拉 格 朗 日 函数 L(w，b,a) 分 别 对 w,b 求 偏 导 数 并 令 其 等 于 0。 
N 
V,L(w,b,a)=w-— 2 =0 
i=] 


N 
V,L(w,b,a)= >》 =0 


i=] 


得 
~N 
w= 2 OVX, (7.19) 
i=] 
N 
> (7.20) 


i=1 
将 式 (7.19) 代入 拉 格 朗 日 函数 〈7.18) ， 并 利用 式 〈7.20) ， 即 得 
L(w,b,a)= aay 一 yoi (Bes » + Ya 


ie j=| 


NM N ~ 
= Yaa “» 二 0 
7 i=] 


is j=l 


印 


. | 芭 w 
光 人 Wb 2) 所 流 2 > > QQ iY (x, Xx) 本 5 ps 
i= 


i=] j=] 


(2) 求 吧 mw%24) 对 a 的 极 大 ， 即 是 对 偶 问 题 


max -1 Yaa, yy,(X Xx )+ Ya (天 过 二 


Dl 


2 全 0，1=12, 


将 式 (7.21) 的 目标 函 ee 就 得 到 下 面 与 之 
等 价 的 对 偶 最 优化 问 题 : 


N 


min DY aa yy 站 一 》 Qt (7.22) 
a 2 i=] j=] i=] 

st. Srey =0 (7.23) 

0, i=1,2,: (7.24) 


考虑 原始 最 优化 问题 (7. pe 一 《7.14) 和 对 偶 最 优化 问题 
(7.22) 一 《7.24) ， 原 始 问题 满足 定理 C.2 的 条 件 ， 所 以 存在 w,a 2;P， 
使 w 是 原始 问题 的 解 ，a;,B 是 对 偶 问 题 的 解 。 这 意味 着 求解 原始 问题 
(7.13) 一 《7.14) 可 以 转换 为 求解 对 个 问题 (7.22) 一 〈7.24) 。 

对 线性 可 分 训练 数据 集 ， 假 设 对 侦 最 优化 问题 (7.22〉~ (7.24) 
对 a 的 解 为 & 二 (9 ,2;".….,Q&x )*"， 可 以 由 a 求 得 原始 最 优化 问题 (7.13) 一 
(7.14) 对 (w,b) 的 解 w,b"。 有 下 面 的 定理 。 

定理 7.2” 设 at 一 (0 ,0 )' 是 对 侦 最 优化 问题 (7.22) ~ (7.24) 
的 解 ， 则 存在 下 标 j)， 使 得 %>0， 并 可 按 下 式 求 得 原始 最 优化 问题 
(7.13) ~ (7.14) J b-: 


Ww "=> y,X, [2 





B=y Ye y,(%,: (7.26) 
证 明 根据 定理 C3， KKIT 条 件 成 并 ， 即 得 


L(w bo )=w a 了 和 三 和 CH 


人 
1=】 


N 
ViZ0w ,aua)=->》o =0 
i=] 
oa (yw x +b) -1)=0, i=1,2,..…,N 
yw .x +b )-1>0， i=1.2..N 
2 >0% i=1,2,%,N 
由 此 得 


wh - 
W' = yx 


其 中 至 少 有 一 个 %W>0 (用 反 证 法 ， 假 设 a 二 0， 由 式 (7.27) 可 知 w 王 0， 
而 w= 二 0 不 是 原始 最 优化 问题 (7.13) 一 〈7.14) 的 解 ， 产 生 矛 盾 ) ， 对 
此 j 有 








y(w x,+b")—1=0 (7.28) 
将 式 (7.25) KA (7.28) 并 注意 到 二 1， 即 得 
bp = 了 > (7 国 
和 此 定 于 可知， 分 离 超 平面 可 以 写成 
>c y(xx)+b"=0 (7.29) 
分 类 决策 函数 可 以 写成 
f(x)= sgn Sey (XxX)+b | (7.30) 


这 就 是 说 ， 分 类 决策 函数 只 依赖 于 输入 x 和 训练 样本 输入 的 内 积 。 式 
(7.30) 称 为 线性 可 分 支持 癌 量 机 的 对 侦 形 式 。 

综 上 所 述 ， 对 于 给 定 的 线性 可 分 训练 数据 集 ， 可 以 首先 求 对 偶 问 题 
(7.22) 一 《7.24) 的 解 a; 再 利用 式 〈7.25) 和 式 〈7.26) 求 得 原始 问 
题 的 解 w',b*; 从 而 得 到 分 高 超 千 面 及 分 类 诀 生 函数 。 这 种 算法 称 为 线性 
向 量 机 的 对 偶 学 习 算 法 ， 是 线性 可 分 支持 向 量 机 学 习 的 基本 算 
法 。 











算法 7.2〈 线 性 可 分 文 持 问 量 机 学 习 算法 ) 

输入 : 线性 可 分 训练 集 T 王 {(x ，y), (xy) (xy )}， 其 中 Xex 一 
R', yeB= {1,+1), i=1,2,...,N; 

输出 ;分离 超 平面 和 分 类 决策 函数 。 

(1) 向 造 并 求解 约 束 最 优化 问题 


min 7 DY aa yy ol 


3 i=l j=l i=] 


N 
S.t. > =0 
i=] 
0, i=]1,2)…,N 
求 得 最 优 解 a 二 (9 ccw Jr。 
(2) 计算 
~N 
w - 0 Pn 
并 选择 a 的 一 个 正 分 量 %>0， 时 和 


Bb = Pane 


(3) 求 得 分 离 超 平面 





W XxX+b =0 
分 类 决策 函数 : 
f(x)=sign(w .x+b") 时 
在 线性 可 分 支持 向 量 机 中 ， 由 式 〈7.25) 、 式 (7.26) 可 知 ，w 和 Pb- 
只 依赖 于 训练 数据 中 对 应 于 % >0 的 样本 点 (x，y)， 而 其 他 样本 点 对 w“ 和 
b- b 没有 时 影响 。 我 们 将 训练 数据 中 对 应 于 % >0 的 实例 点 xER' 称 为 支持 向 





定义 7.4 (支持 癌 量 ) ”考虑 原始 最 优化 问题 (7.13) 一 (7.14) 及 
对 侦 最 优化 问题 (7.22) 一 〈7.24) ， 将 训练 数据 集中 对 应 于 &% >0 的 样 
本 点 (x，y) 的 实例 xER'" 称 为 支持 向 量 。 


根据 这 一 定义 ， 文 持 疝 量 一 定 在 间隔 边界 上 。 由 KKT 互 补 条 件 可 


知 ， 
2 (yw x +b )-1)=0, i=1,2,…,N 
对 应 于 8 >0 的 实例 x， 有 
y(w x +b )-1=0 
或 
WwW .Xx,+b =+l 
即 x 一 定 在 间 隅 边界 上 。 这 里 的 支持 问 量 的 定义 与 前 面 给 出 的 文 持 同 量 
的 定义 是 一 致 的 。 
例 7.2 ”训练 数据 与 例 7.1 相 同 。 如 图 7.4 所 示 ， 正 例 点 是 x 三 (3,3)，， 
X 王 (4,3j， 负 例 点 是 x, 王 (11)"， 试 用 算法 7.2 求 线性 可 分 支持 向 量 机 。 
解 根据 所 给 数据 ， 对 侦 问 题 是 
min ny = yw 


2 








==(18a +250g; +20; + 42a ia, -120.0, -140,0;) -a 一 Qu 一 Qi 


Sst. ai+w 一 23 =0 
Q 宇 0,， i=1,2,3 
解 这 一 最 优化 问题 。 将 a, 二 a,ta, 代 入 目标 函数 并 记 为 


s(n Gs) = 4 + +100 6 —20° —20; 





3 
对 aa 求 偏 时 数 并 令 其 为 0， 易 知 sta_a] 在 点 邯 相 取 极 值 ， 但 该 点 不 满足 
约束 条 件 a>0， 所 以 最 小 值 应 在 边界 达到。 


1 1 
当 a 一 0 时 ， 最 小 值 : 必 本 =- 生 当 a, 二 0 时 ， 最 小 值 :心中 于 是 
1 1 
s(a,aj) 在 a 三 4,a 王 0 达到 最 小 ， 此 时 a, 王 a+a, 王 4。 


上 、 = > 
这 样 ，% 二 名 二 4 对 应 的 实例 点 x,,x, 是 支持 向 量 。 根 据 式 (7.25〉 和 
式 (7.26) 计算 得 








分 离 超 平面 为 


Stl = _ qa 
2 
分 类 决策 函数 为 
/09 =sign 3x" +2*" -2 


对 于 线性 可 分 问题 ， 上 述 线性 可 分 支持 问 量 机 的 学 习 〈 人 硬 间隔 最 大 
化 ) 算法 是 完美 的 。 但 是 ， 训 练 数 据 集 线 性 可 分 古 理想 的 情形 。 在 现实 
问题 中 ， 训 练 数 据 集 往往 是 线性 不 可 分 的 ， 即 在 样本 中 出 现 噪声 或 特异 
扩 。 此 时 ， 有 更 一 般 的 学 习 算 法 。 


7.2 ”线性 支持 回 量 机 与 软 间 隅 最 大 化 
7.2.1 线性 支持 癌 量 机 


线性 可 分 问题 的 文 持 向 量 机 学 习 方 法 ， 对 线性 不 可 分 训练 数据 是 不 
适用 的 ， 因 为 这 时 上 述 方 法 中 的 不 等 式 约束 并 不 能 都 成 立 。 怎 么 才能 将 
它 扩展 到 线性 不 可 分 问题 呢 ? 这 就 需要 修改 硬 间 隔 最 大 化 ， 使 其 成 为 软 
间隔 最 大 化 。 

假设 给 定 一 个 特征 空间 上 的 训练 数据 集 

7 = {Wy (ns) 时 
其 中 ，xEx 一 R"，yEy 二 {+1,-1}，i 二 1,2,...,N，x 为 第 i 个 特征 向 量 ，y 为 
x 的 类 标记 。 再 假设 训练 数据 集 不 是 线性 可 分 的 。 通 常情 况 是 ， 训 练 数 
据 中 有 一 些 特异 点 (outlier) ， 将 这 些 特异 点 除去 后 ， 剩 下 大 部 分 的 样 
本 点 组 成 的 集合 是 线性 可 分 的 。 

线性 不 可 分 意味 着 某 些 样 本 点 (x，y) 不 能 满足 函数 间隔 大 于 等 于 1 
的 约束 条 件 〈7.14) 。 为 了 解决 这 个 问题 ， 可 以 对 每 个 样本 点 (x,，y) 引 
进 一 个 松弛 变量 $>0， 使 函数 间隔 加 上 松弛 变量 大 于 等 于 1。 这 样 ， 约 
束 条 件 变 为 























Ed 


y, (We xX 十 bp) 宇 1- £ 


] 
同时 ， 对 每 个 松弛 变量 *， 支 付 一 个 代价 *,。 目 标 函 数 由 原来 的 ?lw| 变 
成 


N 
lw 人 +C> 5 (7.31) 
i=l 


这 里 ，C>0 称 为 惩罚 参数 ， 一 般 由 应 用 问题 决定 ，C 值 大 时 对 误 分 类 的 
惩罚 增 大 ，C 值 小 时 对 误 分 类 的 惩罚 减 小 。 最 小 化 目标 函数 〈7.31) 包 


] 
含 两 层 含义 : 使 站 wj 尽量 小 即 间隔 尽量 大 ， 同 时 使 误 分 类 氮 的 个 数 尽 量 
小 ，C 征 调和 二 者 的 系数 。 
有 了 上 面 的 思路 ， 可 以 和 训练 数据 集 线 性 可 分 时 一 样 来 考虑 训练 数 
据 集 线性 不 可 分 时 的 线性 文 持 同 量 机 学 习 问 题 。 相 应 于 硬 间 隔 最 大 化 ， 
它 称 为 软 间隔 最 大 化 。 
线性 不 可 分 的 线性 支持 癌 量 机 的 学 习 问 题 变 成 如 下 凸 二 次 规划 


(convex quadratic programming) 问题 (原始 问题 〉: 














N 
min -| wll +CO (7.32) 
ME 避 
SS 二 JW 二 办 过 1 一 5 三 2 (7.33) 
宇 0， Dy (7.34) 


原始 问题 〈7.32) 一 〈7.34) 是 一 个 凸 二 次 规划 问题 ， 因 而 关于 
(w，b,$) 的 解 是 存在 的 。 可 以 证 明 w 的 解 是 唯一 的 ， 但 b 的 解 不 唯一 ，b 
的 解 存 在 于 一 个 区 间 吓 。 

设 问题 〈7.32) 一 〈7.34) 的 解 是 w*”，b*， 于 是 可 以 得 到 分 离 超 平面 
wxt+b' 二 0 及 分 类 决策 函数 f(x) 二 sign(w*…x+b")。 称 这 样 的 模型 为 训练 样 
本 线性 不 可 分 时 的 线性 支持 辣 量 机 ， 简 称 为 线性 支持 问 量 机 。 显 然 ， 线 
性 支持 向 量 机 包含 线性 可 分 支持 向 量 机 。 由 于 现实 中 训练 数据 集 往往 是 
线性 不 可 分 的 ， 线 性 文 持 癌 量 机 具有 更 广 的 适用 性 。 

下 面 给 出 线性 支持 同 量 机 的 定义 。 

定义 7.5〔 线 性 支持 癌 量 机 〉 ”对 于 给 定 的 线性 不 可 分 的 训练 数据 
集 ， 通 过 求解 凸 二 次 规划 问题 ， 即 软 间隔 最 大 化 问题 (7.32) 一 
(7.34) ， 得 到 的 分 离 超 平 面 为 














w .x+b =0 (py) 
以 及 相应 的 分 类 决策 函数 
f(x)=sign(w .x+D ) (7.36) 


称 为 线性 支持 问 量 机 。 


7.2.2 ”学 习 的 对 侦 算 法 


原始 问题 (7.32) 一 (7.34) 的 对 偶 问 题 是 


NN N 
min 5 > way .ri) 一 >》w (71737) 
这 i=1 j=I pe i=1 
N 
ot (7.38) 
i=] 
Oa CC, i=1,2,…,N (7.39) 


原始 最 优化 问题 (7.32) ~ (7.34) 的 拉 格 朗 日 函数 是 


N 


N ~» 
L(w,b,é,a, 1)= ; lwP+C2> 6-Day (wx +h) -1l+é)- 2 us (7.40) 
i=]} i=|l 


1!=| 


其 中 ，a>0,A>0。 
对 偶 问 题 是 拉 格 朗 日 函数 的 极 大 极 小 问题 。 首 先 求 L(w，b,$,a, 人 对 


wb,$ 的 极 小 ? 中 
N 
VL(w,b,é,0,H)=w— pa =0 
i=] 
~ 
V,L(w,b,é,a,1)=-2 0,y,=0 
i=l 


VsL(w,b,e,Q,H)=C-Q—H=0 


得 
~N 
w= OVX (7.41) 
i=l] 
N 
Q.y,=0 (7.42) 
i=] 
CGC- 10 (7.43) 


将 式 (7.41) ~ (7.43) 代入 式 (7.40) ， 得 


一 一 


了 ~N 
min nL(w, b,é,Q, KH)= -~ 0a yy (x,: x)+ a, 
i=] 


2 i=] j=] 
再 对 有 L(w， bs,a/O 求 a 的 极 大 ， 即 得 对 偶 问题 
max -> Yaa yy 2 + (7.44) 
. i=l j=] 

~ 

Sb > = (7.45) 
i=| 
一 (7.46) 
Qa, 三 0 (7.47) 
A 之 0,， i=],2,…,N (7.48) 


将 对 偶 最 优化 问题 (7.44) 一 〈7.48) 进行 变换 : 利用 等 式 约束 
(7.46) 消去 版 ， 从 而 只 留 下 变量 a， 并 将 约束 (7.46) 一 《7.48) 写成 
和 (7.49) 

再 将 对 目标 函数 求 极 大 转换 为 求 极 小 ， 于 是 得 到 对 偶 问 题 〈7.37) 一 

(7.39) 。 

可 以 通过 求解 对 偶 问题 而 得 到 原始 问题 的 解 进而 确定 分 离 超 平面 
和 决策 函数 。 为 此 ， 就 可 以 定理 的 形式 叙述 原始 问题 的 最 优 解 和 对 偶 问 
题 的 最 优 解 的 关系 。 

定理 7.3 设 a 二 (9 ,ax ) 是 对 偶 问题 〈7.37) 一 《〈7.39) 的 一 
个 解 ， 若 存在 a 的 一 个 分 量 %，0<%<C， 则 原始 问题 〈7.32) ~ (7.34) 
人 


w "=o J (7.50) 

















V 


b’*=y 1 or (x,: Ct 
证 明 原 人 问题 是 四 二 次 规划 问题 ， 解 满足 KKT 条 件 。 即 得 


N 
VL(W ,bE ,a ,MH)=w -0 yx=0 (7.52) 
i=| 
从 


V LIw ,be ,a ,A )= -ay, =0 


1=| 


VL(w ,bE ,a ,HU)=C-a -1 =0 


2 (yw + )-1+c)=0 (7.53) 


Kier =0 (7.54) 


y(w .x +b )-1l+é 三 0 


Ai 宇 0, i=1,2,…,N 
由 式 〈7.52) 易 知 式 〈7.50) 成 立 。 青 由 式 《7.53) ~ (7.54) 可 
知 ， 若 存在 %，0<%W<C， 则 y(w*…x+b")-1 二 0。 由 此 即 得 式 (7.51) 。 
由 此 定理 可 知 ， 分 离 超 平 面 可 以 写成 





N 
Yay (xex)+b" =0 (7.55) 
i=1 
分 类 决策 函数 可 以 写成 
= iin Sey (XxX )+ ] (7.56) 
i=] 


式 〈7.56) 为 线性 文 持 癌 量 机 的 对 偶 形 式 。 

综合 前 面 的 结果 ， 有 下 面 的 算法 。 

算法 7.3〔 线 性 文 持 同 量 机 学 习 算 法 ) 

输入 : 训练 数据 集 T 二 {(x,，y,),(X,，y,),…,(X,y,)}， 其 中 ，xEx 二 
R", yEY={-1,+1}, i=1,2,...,N; 

输出 : 分 离 超 平面 和 分 类 决策 函数 。 

(1) 选择 惩 鹿 参 数 C>0， 构 造 并 求解 凸 二 次 规划 问题 





N 
min YY a yy 站) 一 》 al 


oi i=l 


Sit, D0y, =0 
i=] 
0 三 Qi 和 CC， i=1,2,…,N 
求 得 最 优 角 Se .OY 
(2) 计算 
选择 a 的 一 个 分 量 %x 适 合 条 件 0<%<C， 计 算 





w .XxX+b = 
分 类 决策 函数 : 
f(x)=sign(w .x+b") 国 


只 (2) 中 ， 对 任 一 适合 条 件 0<%<C 的 %， 按 式 〈7.51) 都 可 求 出 b，， 
Be (7.32) 一 《7.34) 对 b 的 解 并 不 唯一 [11]， 所 以 实际 
计算 时 可 以 取 在 所 有 符合 条 件 的 样本 点 上 的 平均 值 。 


7.2.3 ”支持 疝 量 


在 线性 不 可 分 的 情况 下 ， 将 对 侦 问 题 (7.37)〉 一 《〈7.39) 的 解 a 一 ( 
,ay,...,Qx "中 对 应 于 i >0 的 样本 点 (x,，y) 的 实例 x 称 为 支持 向 量 ( 软 
间隔 的 支持 向量 ) 。 如 图 7.5 所 示 ， 这 时 的 文 持 回 量 要 比 线性 可 分 时 的 
情况 复杂 一 些 。 图 中 ， 分 离 超 平面 由 实 线 表 示 ， 间 隔 边 界 由 虚线 表示 ， 
RR 负 例 点 由 “x” 表 示 。 图 中 还 标 出 了 实例 x 到 间隔 边界 

















的 距离 





0 
图 7.5 ” 软 间 隔 的 文 持 问 量 











软 间 隔 的 支持 同 量 x 或 者 在 间隔 边界 上 ， 或 者 在 间隔 边界 与 分 离 超 
平面 之 间 ， 或 者 在 分 离 超 平面 误 分 一 侧 。 若 2 <C， 则 $= 二 0， 支 持 向 量 x 
恰好 落 在 间隔 边界 上 ;， 若 2 二 C，0<$<1， 则 分 类 正确 ， xX 在 间隔 边界 
与 分 离 超 平面 之 间 ; 车 一 C，$ 一 1， 则 x 在 分 离 超 平面 上 ; 若 %; 一 
C，$>1， 则 x 位 于 分 离 超 平面 误 分 一 侧 。 


7.2.4 ” 合 页 损失 函数 


对 于 线性 支持 回 量 机 学 习 来 说 ， 其 模型 为 分 离 超 平面 wx+b* 二 0 及 
人 .x+b)， 其 学 习 策 略为 软 间 隅 最 大 化 ， 学 习 算 法 为 
凸 二 次 规 蕊 
线性 文 持 同 量 机 学 习 还 有 另外 一 种 解释 ， 就 是 最 小 化 以 下 目标 函 























N 
[yw +b)]. +4) wl Cy 
t= 

目标 函数 的 第 1 项 是 经 验 损 失 或 经 验 风险 ， 函 数 
L(y(w.x+b))=[1- y(w.x+D)]. (7.58) 





称 为 合 页 损失 函数 (hinge loss function) 。 下 标 “ 十 ”表示 以 下 取 正 值 的 
函数 。 


0, 7 和 (0 
这 束 是 说 ， 当 样本 点 (Xx，y) 被 正确 分 类 且 函 数 则 隅 (确信 和 度 〉 y(w:x+b) 
大 于 1 时 ， 损 失 是 0， 否 则 损失 是 1-y(w:x+b)， 注 意 到 在 图 7.5 中 的 实例 点 
X 被 正确 分 类 ， 但 损失 不 是 0。 目 标 函 数 的 第 2 项 是 系数 为 4 的 w 的 L. 范 
数 ， 是 正则 化 项 。 
定理 7.4 ”线性 支持 癌 量 机 原始 最 优化 问题 : 


Ze 
[z], -| (7.59) 








N 
min 5 wl +CO_é (7.60) 
Wb,s | 
St. ywx+h)l-6, i=1,2, 5,N (7.61) 
GN (7.02) 
等 价 于 最 优化 问题 

min ig +b)]. +4 | wl (7.63) 

证 明 可 将 最 优化 问题 (7.63〉 写成 问题 (7.60) ~~ (7.62) 。 令 
l=y(wix+b)= 志 ;， 避 宇 0 (7.64) 


则 y(w:x+b)>1。 于 是 w,b,$ 满 足 约束 条 件 (7.61) 一 〈7.62) 。 由 式 
(7.64) 有 ，[1-y(w-x+b)] .二 [$ ], 二 $， 所 以 最 优化 问题 (7.63) 可 写成 


N 
min 5 +4lwl? 
WD 路 


1 
若 取 2C， 则 
min a wl HCy， 
td | Ni 4 ca 
wp CGC pp pe i 


与 式 (7.60) 等 价 。 

反之 ， 也 可 将 最 优化 问题 (7.60) ~ (7.62) 表示 成 问题 
(7.63) 。 

合 页 损失 函数 的 图 形 如 图 7.6 所 示 ， 横 轴 是 函数 间隔 y(w:x+b)， 纵 轴 
是 损失 。 由 于 函数 形状 像 一 个 合 页 ， 故 名 合 页 损失 函数 。 


损失 





(0.1) 
0-1 损失 


(0.0) (1.0) 国 数 间 隅 yCOw :x+D) 
图 7.6 合 页 损失 函数 





图 中 还 画 出 0-1 损 失 函 数 ， 可 以 认为 它 是 二 类 分 类 问题 的 真正 的 损 
失 函 数 ， 而 合 页 损失 函数 是 0-1 损 失 函 数 的 上 界 。 由 于 0-1 损 失 函 数 不 是 
连续 可 导 的 ， 直 接 优化 由 其 构成 的 目标 函数 比较 困难 ， 可 以 认为 线性 文 
持 癌 量 机 是 优化 由 0-1 损 失 函 数 的 上 界 〈 合 页 损失 函数 ) 构成 的 目标 函 
数 。 这 时 的 上 界 损失 函数 叉 称 为 代理 损失 函数 surrogate loss 
function) 。 

图 7.6 中 虚线 显示 的 是 感知 机 的 损失 函数 [y(w:x+b)],。 这 时 ， 当 样本 
点 X，y) 被 正确 分 类 时 ， 损 失 是 0， 人 否则 损失 是 -y(w'x+b)。 相 比 之 下 ， 
合 页 损失 函数 不 仅 要 分 类 正确 ， 而 且 确 信 度 足够 高 时 损失 才 是 0。 也 就 
是 说 ， 合 页 损失 函数 对 学 习 有 更 高 的 要 求 。 


7.3 非 线 性 文 持 同 量 机 与 核 函 数 


对 解 线性 分 类 问题 ， 线 性 分 类 文 持 问 量 机 是 一 种 非 第 有 效 的 方法 。 
但 是 ， 有 时 分 类 问题 是 非 线 性 的 ， 这 时 可 以 使 用 非 线 性 支持 向 量 机 。 本 
节 斤 述 非 线 性 文 持 向 量 机 ， 其 主要 特点 是 利用 核 搁 巧 (kernel trick) 。 
为 此 ， 移 要 介绍 核 技 巧 。 核 技巧 不 仅 应 用 于 文 持 问 量 机 ， 而 且 应 用 于 其 
他 统计 学 习 问 题 。 














7.3.1 核 技 巧 
1， 非 线性 分 类 问题 


非 线性 分 类 问题 是 指 通过 利用 非 线 性 模型 才能 很 好 地 进行 分 类 的 问 


题 。 先 看 一 个 例子 : 如 7.7 左 图 ， 是 一 个 分 类 问题 ， 图 中 “.” 表 示 正 实例 
太 ，“Xx” 表 示人 负 实 例 点 。 由 图 可 见 ， 无 法 用 直线 (线性 模型 ) 将 正 负 实 
例 正 确 分 开 ， 但 可 以 用 一 条 椭圆 曲线 〈 非 线性 模型 ) 将 它们 正确 分 开 。 


xi2)h 














图 7.7” 非 线性 分 类 问题 与 核 技巧 示 例 


一 般 来 说， 对 给 定 的 一 个 训练 数据 集 T 二 {(x,，y),(X,y),….,(Xwy)}， 
其 中 ， 实 例 x 属 于 输入 空间 ，xEx 二 R"， 对 应 的 标记 有 两 类 ye = 
{-1,+1}，i 二 1,2,...,N。 如 果 能 用 R' 中 的 一 个 超 曲 面 将 正 负 例 正确 分 开 ， 
则 称 这 个 问题 为 非 线 性 可 分 问题 。 

非 线 性 问题 往往 不 好 求解 ， 所 以 希望 能 用 解 线性 分 类 问题 的 方法 解 
决 这 个 问题 。 所 采取 的 方法 是 进行 一 个 非 线 性 变换 ， 将 非 线 性 问题 变换 
为 线性 问题 ， 通 过 解 变换 后 的 线性 问题 的 方法 求解 原来 的 非 线 性 问题 。 
对 图 7.7 所 示 的 例子 ， 通 过 变换 ， 将 左 图 中 覃 圆 变换 成 右 图 中 的 直线 ， 
将 非 线 性 分 类 问题 变换 为 线性 分 类 问题 。 

设 原 空间 为 XC 有 R2，X 一 (XO,XCOJTEX， 新 空间 为 艺 CR’:， z= 二 (z°,22)'EZ 
， 定 义 从 原 空间 到 新 空间 的 变换 (映射 〉: 

z 二 (x) 于 ((X 由 ) (xxG ) )! 
经 过 变换 z 二 G(x)， 原 空间 xCR’ 变 换 为 新 空间 ZCR:， 原 空间 中 的 点 相 
应 地 变换 为 新 空间 中 的 点 ， 原 空间 中 的 椭 

w(x ) +wWw(O) +b=0 
变换 成 为 新 空间 中 的 直线 

wz" +w,z2 +b=0 

在 变换 后 的 新 空间 里 ， 直 线 wzo+wze+b 一 0 可 以 将 变换 后 的 正 负 实例 点 
正确 分 开 。 这 样 ， 原 空间 的 非 线性 可 分 问题 就 变 成 了 新 空间 的 线性 可 分 
问题 。 


上 面 的 例子 说 明 ， 用 线性 分 类 方法 求解 非 线性 分 类 问题 分 为 两 步 : 


























首先 使 用 一 个 变换 将 原 空 间 的 数据 映射 到 新 空间 ; 然后 在 新 空间 里 用 线 
性 分 类 学 习 方 法 从 训练 数据 中 学 习 分 类 模型 。 核 技巧 就 属于 这 样 的 方 


法 。 

核 技 巧 应 用 到 文 持 同 量 机 ， 其 基本 想法 就 是 通过 一 个 非 线性 变换 将 
输入 空间 〔 欧 氏 空间 R' 或 离散 集合 ) 对 应 于 一 个 特征 空间 ( 希 尔 伯 特 空 
间伐) ， 使 得 在 输入 空间 R" 中 的 超 曲面 模型 对 应 于 特征 空间 区 中 的 超 平 
面 模 型 (支持 向 量 机 〉。 这 样 ， 分 类 问题 的 学 习 任务 通过 在 特征 空间 中 
求解 线性 支持 向 量 机 就 可 以 完成 。 


2. 核 函数 的 定义 
定义 7.6( 核 函数 ) ， 设 x 是 输入 空间 〈 欧 氏 空 间 R" 的 子 集 或 离散 集 


又 设 关 为 特征 空间 《和希 尔 伯 特 空间 ) ， 如 果 存 在 一 个 从 x 到 并 的 
赋 苹 





bx): 本 一 1 (7.65) 
使 得 对 所 有 x,zEx， 了 函数 K(x,z) 满 足 条 件 
K(x,2)= G(x) .9(2) (7.60) 


则 称 K(x,z) 为 核 函数 ，QG(x) 为 映 冉 函数 ， 式 中 B(x)-O(z) 为 G(x) 和 @(z) 的 


口 
ANo 


ee 在 学 习 与 预测 中 只 定义 核 函 数 K(xz)， 而 不 显 式 
地 定义 映射 函数 g。 通 常 ， 直 接 计算 K(x,z) 比 较 容易 ， 而 通过 G(x) 和 GG(z) 
计算 K(x,， z) 并 不 容易 。 注意 ，G 是 输入 空间 R' 到 特征 空间 的 映射 ， 特 征 
空间 一 般 是 高 维 的 ， 甚 至 是 无 穷 维 的 。 可 以 看 到 ， 对 于 给 定 的 核 
K(x,z)， 特 征 空 间 风 和 映射 函数 GB 的 取 法 并 不 唯一 ， 可 以 取 不 同 的 特征 
空间 ， 即 便 是 在 同一 特征 空间 里 也 可 以 取 不 同 的 映射 。 

下 面 举 一 个 简单 的 例子 来 说 明 核 水 数 和 映射 函数 的 关系 。 

例 7.3 ”假设 输入 空 hn 核 函 数 是 K(x,z) 二 (x*:z}》y， 试 找 出 其 相关 
的 特征 空间 购 和 映射 G(x):R’ -~ 

解 ” 取 特征 空间 凡 ==R，， ee (Rs 于 

(x.z) = (x 2 + x 2) (2 人 =(x 20 ) + 2x' > Dy)> ) (2 + (x2 ) (2 人 


所 以 可 以 取 映 射 





dr) = (xD 20Dx A 和 x YY )! 
容易 验证 Q(x):B(z) 二 (x:z)= 二 K(x,z)。 
仍 取 风 ==R 以 及 


3 


] 1) r (2)\2 Ct) wel (2} 2aT 
Pe 7 Wp de 
同样 有 @(x)*@(z)=(x*z) =K(x,z)。 
还 可 以 取 太 二 R 和 和 


f(x) = (x ,XO xD ,xO x ,x ) )! 本 
3. 核 技 巧 在 支持 同 量 机 中 的 应 用 


我 们 注意 到 在 线性 支持 向 量 机 的 对 偶 问 题 中 ， 无 论 是 目标 函数 还 是 
决策 函数 《分 离 超 平面 ) 都 只 涉及 输入 实例 与 实例 之 间 的 内 积 。 在 对 偶 
问题 的 目标 函数 〈7.37) 中 的 内 积 xx 可 以 用 核 函 数 K(x,，x) 二 
G(x)-G(X) 来 代替 。 此 时 对 偶 问 题 的 目标 函数 成 为 

WO) = Ya Ks) -Yo (7.67) 


A I 


>» 
站 
AN 











N 和 


fx)= sn| Serge )-.p(x)+b 一 sn| Say K(x,x)+b (7.68) 
i=| 1=| 


这 等 价 于 经 过 映射 函数 g 将 原来 的 输入 空间 变换 到 一 个 新 的 特征 空 
间 ， 将 输入 空间 中 的 内 积 x-x 变 换 为 尾 征 空间 中 的 内 积 @(x)-G(x)， 在 新 
的 特征 空间 里 从 训练 样本 中 学 习 线 性 文 持 问 量 机 。 当 映射 函数 是 非 线性 
函数 时 ， 学 习 到 的 含有 核 函 数 的 文 持 癌 量 机 是 非 线 性 分 类 模型 。 

也 惑 是 说 ， 在 核 函 数 K(x2) 给 定 的 条 件 下 ， 可 以 利用 解 线性 分 类 问 
题 的 方法 求解 非 线 性 分 类 问题 的 支持 同 量 机 。 学 习 古 隐 式 地 在 特征 空间 
进行 的 ， 不 需要 显 式 地 定义 特征 空间 和 映射 函数 。 这 样 的 技巧 称 为 核 技 
巧 ， 它 是 巧妙 地 利用 线性 分 类 学 习 方法 与 核 函 数 解决 非 线性 问题 的 技 
术 。 在 实际 应 用 中 ， 往 往 依赖 领域 知识 直接 选择 核 函 数 ， 核 函数 选择 的 
有 效 性 需要 通过 实验 验证 。 


7.3.2 ”正定 核 
己 知 映射 函数 G, 可 以 通过 Q(x) 和 @(z) 的 内 积 求 得 核 函数 K(x,z)。 不 


用 构造 映射 G(x) 能 否 直 接 判 断 一 个 给 定 的 函数 K(x,z) 是 不 是 核 函数 ? 或 
者 说 ， 函 数 K(x,z) 满 足 什么 条 件 才能 成 为 核 函 数 ? 











本 节 叙 述 正 定 核 的 充 要 条 件 。 通 常 所 说 的 核 函 数 就 是 正定 核 函 数 
(positive definite kernel function) 。 为 证 明 此 定理 先 介绍 有 关 的 预备 知 
Ws 
假设 K(x,z) 是 定义 在 xxx 上 的 对 称 函 数 ， 并 且 对 任意 的 x ,Xx,,.….,X,EX， 
K(X,z) 关 于 X,Xx,….,X, 约 Gram 算 阵 是 半 正 定 的。 可 以 依据 函数 K(x,z)， 构 
成 一 个 希 尔 伯 特 空间 (Hilbert space) ， 其 步骤 是 : 首先 定义 映射 @ 并 构 
成 向 量 空间 S; 然后 在 S 上 定义 内 积 构成 内 积 空 间 ;， 最 后 将 S 完 备 化 构 
成 希 尔 伯 特 空间 。 


1. 定义 映射 ， 构 成 向 量 空间 














先 定义 映射 
办 :YX 一 天 (.,X) (7.69) 
根据 这 一 映射 ， 对 任意 xex，aER，i 一 1,2,.…m， 定 义 线性 组 合 
f(:)=2,0K(.,%) (7.70) 


考虑 由 线性 组 合 为 元 素 的 集合 S。 由 于 集合 S 对 加 法 和 数 乘 运算 是 封闭 
的 ， 所 以 S 构 成 一 个 向 量 空间 。 


2. 在 上 定义 内 积 ， 使 其 成 为 内 积 空间 
在 S 上 定义 一 个 运算 *:， 对 任意 fgee， 





f(°)= 2 aK(,%) (7.71) 
! 
a(.)=> RK( (7.72) 
了 
定义 运算 * 
Jrg=》》0pKO02Z1) (7.73) 


| 


证 明 运 算 * 是 空间 S 的 内 积 。 为 此 要 证 : 


(1) (cf/)*g=c(f *g), ceR (7.74) 


(2) (f+g)*h=/f*h+eg*h, hes (7.75) 
(3) f*g=g*f (7.76) 
(4) 三 * 厂 三 0， CRTTY 

ff = =0 (7.78) 


其 中 ，(D 一 03) 由 式 〈7.70) 一 式 〈7.72) 及 K(x,z) 的 对 称 性 容易 
得 到 。 现 证 (4) 之 式 〈7.77) 。 由 式 〈7.70) 及 式 (7.73) 可 得 ; 


mm 


f*f= 2 KOs) 


由 Gram 矩阵 的 半 正 定性 知 上 式 右 ; 岩 非 负 ， 即 人 f#* 们 0。 
再 证 (4) 之 式 (7.78) 。 充 分 性 显然 。 为 证 必要 性 ， 首 先 证 明 不 
等 式 : 
|f*gl<(f*f)(g*g) (7.79) 
设 ，f，gES，AeR， 则 f+AgeS， 于 是 ， 
(f+Aeg)*(f +Ag) 二 0 


f*f+2A(f*g)+A(g*g)=0 
其 左 端 是 4 的 二 次 三 项 式 ， 非 负 ， 其 判别 式 小 于 等 于 0， 即 
(f*g) —-(f*f)(g*g)<0 
于 是 式 (7.79) 得 证 。 现 证 若 f*f 二 0， 则 f= 二 0。 事 实 上 ， 若 
f(.)= 2 i) 
则 按 运 算 * 的 定义 式 (7.73) ， pe 有 


K(x)*f = Dak x)= 0) 








es 
| CoF 了 天 (0* Fh (7.80) 
由 式 〈7.79) 和 式 (7.77) 有 
[K(x)* f| (K(x)* K(x)(f *f)=K(x,x)(f *f) 
由 式 (7.80) 有 
[fF K(x,x)(f * 7) 


此 式 表明 ， 当 f*f 二 0 时 ， 对 任意 的 x 都 有 |f(x)| 二 0。 

至 此 ， 证 明了 *#* 为 向 量 空间 & 的 内 积 。 赋 了 予 内 积 的 向 量 空间 为 内 积 
空间 。 因 此 S 是 一 个 内 积 空间 。 既 然 * 为 6 的 内 积 运算 ， 那 么 仍然 用 : 表 
示 ， 即 若 


人 \，» 


1m ! 
RE 
i=1 i=1 


六 
eh 


Mm 


f= (7.81) 


3. 将 内 积 空间 S 完 备 化 为 希 尔 伯 特 空间 
现在 将 内 积 空间 S 完 备 化 。 由 式 (7.81) 定义 的 内 积 可 以 得 到 范 数 


[f=yf:f (7.82) 
因此 ，S 是 一 个 赋 范 向 量 空间 。 根 据 泛 函 分 析 理 论 ， 对 于 不 完备 的 赋 范 
癌 量 空间 SS， 一定 可 以 使 之 完备 化 ， 得 到 完备 的 赋 范 癌 量 空间 风 。 一 个 
内 积 空间 ， 当 作为 一 个 赋 范 回 量 空间 是 完备 的 时 候 ， 束 是 希 尔 伯 特 空 
间 。 这 样 ， 就 得 到 了 和 希 尔 伯 特 空间 戏 。 
这 一 和 希 尔 伯 特 空间 戏称 为 再 生 核 硕 尔 伯 特 空间 (reproducing kemel 
Hilbert space，RKHS) 。 这 是 由 于 核 K 具 有 再 生性 ， 即 满足 











K(.,x).f = (x) (7.83) 
及 
二 人 52) (7.84) 
称 为 再 生 核 。 


4. 正定 核 的 充 要 条 件 


定理 7.5《〈 正 定 核 的 充 要 条 件 ) “” 设 K: 七 x 七 R 是 对 称 函 数 ， 则 
K(x,z) 为 正定 核 函 数 的 充 要 条 件 是 对 任意 xEX，i 二 1,2,...,m，K(x,z) 对 应 
的 Gram 和 矩阵 : 

K | Ki )| (7.85) 
是 泪 让 十 炬 网 Sh 


证 明 必要 性 。 由 于 K(x,z) 是 水 x 水 上 的 正定 核 ， 所 以 存在 从 雍 到 希 
尔 伯 特 空间 丰 的 映射 @， 使 得 


K(x,2)= (x):G(z) 
于 是 ， 对 任意 xX,x,,.….,Xx,， 构 造 K(x,z) 关 于 XxX,x,,.….,X, 的 Gram 甜 阵 
[K, J =[K (x, ,X i 
对 任意 cc,...,cCER， 有 
1 


ij=1 i,j=] 


(gen) (Een) -een 


表明 K(x,z) 关 于 xXx,x,,.….,X, 的 Gram 甜 阵 是 半 正 定 的 。 
充分 性 。 己 知 对 称 函 数 K(x,z) 对 任意 Xx ,Xx,,...,X,EXx，K(x,z) 关 于 xX,,X,， 
...X .的 Gram 矩阵 是 半 正 定 的 。 根 据 前 面 的 结果 ， 对 给 定 的 K(xz)， 可 以 
构造 从 七 到 某 个 希 尔 伯 特 空间 类 的 映射 : 
办 :YX 一 天 (.,XY) (7.80) 
由 式 《7.83) 可 知 ， 


三 (0 








K(.,x).f = f(x) 

并 且 
K(x)sK(s2)= K(x2) 

由 式 《7.86〉 即 得 

K(x,2)= G(x): 从) 
表明 K(x,z) 是 七 x 世 上 的 核 函 数 。 
人 因此 可 以 作为 正定 核 ， 即 核 函 数 的 

一 定义 。 
定义 7.7〈 正 定 核 的 等 价 定义 ) “” 设 七 CR"*，K(x,Z) 是 定义 在 七 x 七 上 
的 对 称 函 数 ， 如 果 对 任意 xe 七 ，i 王 12,,m，K(xZ) 对 应 的 Gram 和 矩阵 
K=| K(x,,x,)| (7.87) 


Mxm 


是 半 正 定 和 矩阵， 则 称 K(x,z) 是 正定 核 。 


这 一 定义 在 构造 核 函 数 时 很 有 用 。 但 对 于 一 个 具体 函数 K(x,z) 来 
说 ， 检 验 它 是 否 为 正定 核 函 数 并 不 容易 ， 因 为 要 求 对 任意 有 限 输入 集 
{X ，X,…..X} 验 证 K 对 应 的 Gram 和 矩阵 是 否 为 半 正 定 的 。 在 实际 问题 中 往 
往 应 用 已 有 的 核 函数 。 男 外 ， 由 Mercer 定 理 可 以 得 到 Mercer 核 (Mercer 











Kernel) m， 正 定 核 比 Mercer 核 更 具 一 般 性 。 下 面 介 绍 一 些 常 用 的 核 函 
数 。 


7.3.3 ”常用 核 函 数 


1. 多 项 式 核 函数 (polynomial kernel function ) 


K(X 2) (X21 (7.88) 
Wo Np 次 多 项 式 分 类 器 。 在 此 情形 下 ， 分 类 决策 函 
成 > 











10-sien San “x+1) | (7.89) 
高 斯 核 孙 数 (Gaussian kernel function ) 
hl- J | (7.90) 
2 











对 应 的 文 持 问 旱 机 是 高 其 径 向 基 函 数 (radial basis function) 分 类 器 。 在 
此 情形 下 ， 分 类 决策 函数 成 为 


/9 -sien Sa 了 ap -时 am bal hs 3 (7.91) 


i=] 
3. 字符 串 核 函 数 (string kernel function ) 


核 函数 不 仅 可 以 定义 在 欧 氏 空间 上 ， 还 可 以 定义 在 离散 数据 的 集合 
上 。 比 如 ， 字 符 串 核 是 定义 在 字符 串 集 合 上 的 核 函数 。 字 符 串 核 函 数 在 
文本 分 类 、 信 息 检索 、 和 生物 信息 学 等 方面 都 有 应 用 。 

考虑 ”个 有 限 字 符 表 瑟 。 字 符 串 s 是 从 中 取出 的 有 限 个 字符 的 序 
列 ， 包 括 空 字符 串 。 字 符 串 s 的 长 度 用 |s| 表 示 ， 它 的 元 素 记 作 s(1)s(2).….… 
s(|s|)。 两 个 字符 串 s 和 t 的 连接 记 作 st。 所 有 长 度 为 n 的 字符 串 的 集合 记 作 

= 2 
了 "， 所 有 字符 串 的 集合 记 作 U 

考虑 字符 串 s 的 子 串 u。 给 定 一 个 指标 序列 i 二 i， j,i)，1<i<i,<... 
<i <|s|， 5 的 子 串 定义 为 n=s() 二 s(i)sG).…s(i)， 其 长 度 记 作 1G)==i 
i+1。 如 果 i 是 连续 的 ， 则 ]@) 二 ol; 否则，1G)>hul。 

假设 S 是 长 度 大 于 或 等 于 n 字 符 串 的 集合 ，s 是 S 的 元 素 。 现 在 建立 





字符 串 集合 S 到 特征 空间 1 = 及: 的 映射 Gn(s)。R* 表示 定义 在 于 上 的 实 
数 空间 ， 其 每 一 维 对 应 一 个 字符 串 ue 疡 ， 映 射 Gn(s) 将 字符 串 s 对 应 于 空 
间 R> 的 一 个 向 量 ， 其 在 u 维 上 的 取 值 为 


[6, (5)], = py (7.92) 

这 里 ，0<Ah<1 是 .个 衰减 参数 ， 1(i) 表 示 字 符 串 i 的 长 度 ， 求 和 在 s 中 所 有 
与 u 相 同 的 子 串 上 进行 。 

例如 ， 假 设 了 为 英文 字符 集 ，n 为 3，@ 为 长 度 大 于 或 等 于 3 的 字符 串 
的 集合 。 考 虑 将 字符 集 S 映 射 到 特征 空间 H,。H, 的 一 维 对 应 于 字符 串 
asd。 这 时 ， 字 符 串 “Nasdag” 与 “ass das” 在 这 一 维 上 的 值 分 别 是 
[@.(Nasdaq)] 三 于 和 [Cdassmdas)] 三 24: ( 口 为 空格 )。 在 第 1 个 字符 串 
里 ，asd 是 连续 的 子 串 。 在 第 2 个 字符 串 里 ， asd 是 长 度 为 5 的 不 连续 子 
串 ， 共 出 现 2 次 。 
要 两 个 字符 串 s 和 t 上 的 字符 串 核 函 数 是 基于 映射 On 的 特征 空间 中 的 内 
口 。 


k,(s,1) = 2 [96,05)), [$, (0)], 它 NO RD (7.93) 
字符 串 核 函数 k (st) 给 出 了 字符 串 s 和 t 中 长 度 等 于 n 的 所 有 子 串 组 成 的 特 
征 癌 量 的 余弦 相似 度 (cosine similarity) 。 直 观 上 ， 两 个 字符 串 相同 的 
子 串 越 多 ， 它 们 就 越 相似 ， 字 符 串 核 函 数 的 值 就 越 大 。 字符 串 核 函数 可 

以 由 动态 规划 快速 地 计算 。 


7.3.4” 非 线性 支持 问 量 分 类 机 

如 上 所 述 ， 利 用 核 技 巧 ， 可 以 将 线性 分 类 的 学 习 方 法 应 用 到 非 线性 
分 类 问题 中 去 。 将 线性 支持 回 量 机 扩展 到 非 线 性 支持 问 量 机 ， 只 需 将 线 
性 支持 同 量 机 对 侦 形 式 中 的 内 积 换 成 核 函 数 。 

定义 7.8〈 非 线性 支持 向 量 机 ) ”从 非 线 性 分 类 训练 集 ， 通 过 核 函 
数 与 软 间隔 最 大 化 ， 或 凸 二 次 规划 (7.95) 一 (7.97) ， 学 习 得 到 的 分 
类 决策 函数 

f(t)= ign einKe x)+ pb (7.94) 
称 为 非 线 性 支持 癌 量 ，K(x,z) 是 正定 核 函 数 。 


下 耐用 述 非 线性 支持 向 量 机 学 习 算 法 。 




















算法 7.4《〈 非 线性 文 持 向 量 机 学 习 算法 ) 

输入 : 训练 数据 集 T 二 Oe y),(X,，7,),…,(Xwy,)}， 其 中 xEx 二 RR"， 
yEY={-1,+1}, i=1,2,. 

输出 : 分 类 决策 人 

(1) 选取 适当 的 核 函 数 K(x,z) 和 适当 的 参数 C， 构 造 并 求解 最 优化 





问题 

] Vy VY VN 

min 32 2 VIK GN) 20 (7.95) 
ee 
从 

S.t. .0 = 0 (7.96) 
i=] 
0<a <C, i=1,2,…,N (7.97) 


求 得 最 优 解 z 一 (Co ,Qnr。 
(2) 选择 a 的 一 个 正 分 》 量 0<C j<C, 计算 


bp” =y -> WK(N TN,) 
(3) 构造 决策 函数 : 


f(x)=sign Doary K(x XxX)+b | 办 


pi 


i=l 
当 K(x,z) 是 正定 核 函 数 时 ， 问 题 (7.95) 一 〈7.97) 是 凸 二 次 规划 问题 ， 
解 是 存在 的 。 


7.4 厅 列 最 小 最 优化 算法 


本 节 讨 论文 持 同 量 机 学 习 的 实现 问题 。 我 们 知道 ， 支 持 问 量 机 的 学 
习 问 题 可 以 形式 化 为 求解 凸 二 次 规划 问题 。 这 样 的 凸 二 次 规划 问题 具有 
全 局 最 优 解 ， 并 且 有 许多 最 优化 算法 可 以 用 于 这 一 问题 的 求解 。 但 是 当 
训练 样本 容量 很 大 时 ， 这 些 算 法 往往 变 得 非常 低 效 ， 以 致 无 法 使 用 。 所 
以 ， 如 何 高 效 地 实现 支持 同 量 机 学 习 就 成 为 一 个 重要 的 问题 。 目 前 人 们 
己 提 出 许多 快速 实现 算法 。 本 节 讲 述 其 中 的 序列 最 小 最 优化 〈sequential 
minimal optimization，SMO) 算法 ， 这 种 算法 1998 年 由 Platt 提 出 。 

SMO 算 法 要 解 如 下 四 二 次 规划 的 对 偶 问 题 : 


























min 7 Paapy ns (7.98) 
i=) 


i wf 
并 J ) 
il j=) 


N 
Sit a=0 (7.99) 


i=] 


OC P=basN (7.100) 
在 这 个 问题 中 ， 变 量 是 拉 格 朗 日 乘 子 ， 一 个 变量 a 对 应 于 一 个 样本 点 
(Xx,y); 变量 的 总 数 等 于 训练 样本 容量 N。 

SMO 算 法 是 一 种 局 发 式 算 法 ， 其 基本 思路 是 : 如 果 所 有 变量 的 解 都 
满足 此 最 优化 问题 的 KKT 和 条件 (Karush-Kuhn-Tucker conditions) ， 那 么 
这 个 最 优化 问题 的 解 束 得 到 了 。 因 为 KKT 条 件 是 该 最 优化 问题 的 充分 必 
要 和 条件。 否则 ， 选 择 两 个 变量 ， 固 定 其 他 变量 ， 针 对 这 两 个 变量 构建 一 
个 二 次 规划 问题 。 这 个 二 次 规划 问题 关于 这 两 个 变量 的 解 应 该 更 接近 原 
始 二 次 规划 问题 的 解 ， 因 为 这 会 使 得 原始 二 次 规划 问题 的 目标 函数 值 变 
得 更 小 。 重 要 的 是 ， 这 时 子 问题 可 以 通过 解析 方法 求解 ， 这 样 束 可 以 大 
大 提高 整个 算法 的 计算 速度 。 子 问题 有 两 个 变量 ， 一 个 是 违反 KKT 条 件 
最 严重 的 那 一 个 ， 另 一 个 由 约束 条 件 目 动 确定 。 如 此 ，SMO 算 法 将 原 问 
题 不 断 分 解 为 子 问题 并 对 子 问 题 求解 ， 进 而 达到 求解 原 问 题 的 目的 。 

注意 ， 子 问题 的 两 个 变量 中 只 有 一 个 是 自由 变量 。 假 设 a ，a 为 两 
个 变量 ，a,,a,,.…,a, 国 定 ， 那 么 由 等 式 约束 (7.99)〉 可 知 


Q 三 -yy ay, 

如 果 a 确定， 那么 a 也 随 之 确定 。 所 以 子 问题 中 同时 更 新 两 个 变量 。 

整个 SMO 算 法 包括 两 个 部 分 ;求解 两 个 变量 二 次 规划 的 解析 方法 和 
选择 变量 的 启发 式 方法 。 

7.4.1 两 个 变量 二 次 规划 的 求解 方法 

不 失 一 般 性 ， 假 设 选择 的 两 个 变量 是 aa ， 其 他 变量 a(i 二 3,4,...,N) 
是 固定 的 。 于 是 SMO 的 最 优化 问题 7.98) 一 〈7.100) 的 子 问 题 可 以 写 
成 : 























了 
min W(a,a,)= ET 十 人 202 tA 0 
Ql, Oy ?4 2 


N N 
一 (Q +0Q,)+ ya PK + > yak,, (7.101) 
1 2 A ed i il 22 ii 2 
i=3 i=> 


Sst. Qly+Q,y, = -2 yo, =6 (7.102) 
1=3 


QW eC i=12 (7.103) 
其 中 ，K 二 K(x,，x),i，j 二 1,2,.….,N，65 是 常数 ， 目 标 函 数 式 (7.101) 中 
省 略 了 不 含 a,a, 的 常数 项 。 

为 了 求解 两 个 变量 的 二 次 规划 问题 (7.101D) 一 (7.103)， 首 先 分 析 约 束 
条 件 ， 然 后 在 此 约束 条 件 下 求 极 小 。 


由 于 只 有 两 个 变量 (a ,a,)， 约 束 可 以 用 二 维 空间 中 的 图 形 表示 (如 
图 7.8 所 示 ) 。 








0 =0 
1» -0 = 


图 7.8 ”二 变量 优化 问题 图 示 


y1 = 六 之 Qi 十 0 天 


不 等 式 约 束 《〈7.103) 使 得 (a,a) 在 盒子 [0,C ]x[0,C ] 内 ， 等 式 约束 
(7.102) 使 (a,a,) 在 平行 于 盒子 [0,C ]x [0,C ] 的 对 角 线 的 直线 上 。 因 此 要 
求 的 是 目标 函数 在 一 条 平行 于 对 角 线 的 线段 上 的 最 优 值 。 这 使 得 两 个 变 
量 的 最 优化 问题 成 为 实质 上 的 单 变量 的 最 优化 问题 ， 不 妨 考虑 为 变量 a 
的 最 优化 问题 。 

假设 问题 〈7.101) 一 (7.103) 的 初始 可 行 解 为 Cr ,2 ， 最 优 解 为 
2 ， 并 且 假 设 在 沿 着 约束 方向 未 经 前 辑 时 a 的 最 优 解 为 22” 


由 于 ca“ 需 满足 不 等 式 约束 〈7.103) ， 所 以 最 优 值 &?“ 的 取 值 范围 
必须 满足 条 件 








0 “SH 
其 中 ,， 工 与 H 是 2 ”所 在 的 对 角 线段 端点 的 界 。 如 果 yzy,( 如 图 7.8 左 图 
所 示 ) ， 则 
了 = Imax(0,a -a™), H=min(C,C+aQ 一 ao ) 
如 果 y 三 《〈 如 图 7.8 右 图 所 示 ) ， 则 
了 = max(0,x +o -C0C), H=min(C,a” +@a®) 


下 面 ， 首先 求 沿 着 约束 方向 未 经 甬 辑 即 未 考虑 不 等 式 约束 











(7.103) 的 最 优 解 2 ; CR 剪辑 后 a 的 解 Q2 ”。 我 们 用 定理 
来 叙述 这 个 站 为 了 叙述 简单 ， 
ri K(x,x)+b (7.104) 
i=| 
E= g(x)-—y, -Sake + 一 斯 i=1,2 (7.105) 


当 i 二 1,2 时 ， EE 为 函数 g(x) 对 输入 xX 的 预测 值 与 真实 输出 y 之 差 。 
定理 7.6 ”最 优化 问题 7.101) ~ 《7.103) 沿 着 约束 方向 未 经 剪辑 
时 的 解 是 
ee 2 er 只 功 ( 忆 二 E,) (7.106) 
7 
其 中 ， 
Rs (7.107) 


(OO 是 输入 空间 到 特征 空间 的 映射 ，E， i=12， 由 起 于 7 .05 和 5 给 出 : 
经 剪辑 后 a 的 解 是 








H, a ;有 
Cnev = Le eH (7.108) 
二 
由 02 求 得 4” 是 
Qe = a + yy (= da (7.109) 


证 明 引进 记号 
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v= ay K(x)=8%) -Day Kx)-b, i=1,2 


j=3 /j=l 
目标 函数 可 2 


W(Q,Q,)=— > Kuo + Ku 十 为 攻关 QQ 





十 CQ) 十 力 WQ + ya, GA] 10) 


由 ay, 二 5-ay, 及 二 1， J 
pe (5 J 0 ) yi 
代入 式 〈7.110) ， 得 到 只 是 a, we 数 的 目标 函数 : 


1 
W(a, ) = 一 NGE- Q,y, a + Kym thc -0 





-6—0,) -Qa + —0»,)+ ,0 
对 a, 求 导数 
oW 


大 02 十 大 2202 一 2 大 DC 
COD 





— Key t Koo + Hy —1—Vvy t+ 
令 其 为 0， 得 到 
(Ki + Kk, 一 2 大 iD)02 =»,(7, ~ +oK -sR t+ —»,) 


一 一 其 十 5 太一 5 大 + st) -Drak, -| 
f=] 
-sDyak, | 
j=| 


将 6 二 0"y+02"y, 代 入 ， 得 到 
(K+ RK, —2K a =y, (K+K,—2K a y+y,—»+g(x)- g(x,)) 
=(K+K,, -2K,)a® +y,(E-—E,) 
将 7 二 K+K,-2K, 代 入 ， 于 是 得 到 


new,unc 


CQ =Q, 


7 
要 使 其 满足 不 等 式 约束 必须 将 其 限制 在 区 间 苞 ， 瑟 内 ， 从 而 得 到 


old + (E > b;) 


% 的 表达 式 〈7.108) 。 由 等 式 约束 〈7.102) ， 得 到 % 的 表达 式 ， 
《7.109) 。 于 是 得 到 最 优化 问题 (7.101) 一 〈7.103) 的 解 (%， ,2%2 )。 


7.4.2 ”变量 的 选择 方法 
SMO 算 法 在 每 个 子 问 题 中 选择 两 个 变量 优化 ， 其 中 至 少 一 个 变量 是 
违反 KKT 条 件 的 。 
1. 第 1 个 变量 的 选择 


SMO 称 选择 第 1 个 变量 的 过 程 为 外 层 循环 。 外 层 循 环 在 训练 样本 中 
选取 违反 KKT 条 件 最 严重 的 样本 点 ， 并 将 其 对 应 的 变量 作为 第 1 个 变 
量 。 具 体 地 ， 检 验 训 练 样本 点 (x，y) 是 否 满足 KKT 条 件 ， 即 


Q,=0©O ye(x)=1 Ci 11) 
OQ<aQa<COye(x)=]1 (7.112) 
Q,=C OO ye(x)] (7.113) 


~ 
g(x)= ay K(x,x)+b 
/j=l 


其 中 ， 8 

该 检验 是 在 台 泊 围 内 进行 的 。 在 检验 过 程 中 ， 外 层 循环 首先 吉 历 所 
有 满足 条 件 0<a<C 的 样本 点 ， 即 在 间 隅 边界 上 的 支持 疝 量 点 ， 检 验 它们 
是否 满足 KKT 和 条件。 如 果 这 些 样本 点 都 满足 KKT 和 条件， 那么 志 历 整个 训 
练 集 ， 检 验 它 们 是 否 满 足 KKT 条 件 。 


2. 第 2 个 变量 的 选择 


SMO 称 选择 第 2 个 变量 的 过 程 为 内 层 循环 。 假设 在 外 层 循环 中 已 经 
找到 第 1 个 变量 a， 现 在 要 在 内 层 循环 中 找 第 2 个 变量 a 。 第 2 个 变量 选择 
的 标准 是 希望 能 使 a 有 足够 大 的 变化 。 

由 式 (7.106) 和 式 (7.108) 可 知 ，% ”是 依赖 于 EE| 的 ， 为 了 加 
快 计算 速度 ， 一 种 简单 的 做 法 是 选择 a， 使 其 对 应 的 |E.-E,| 最 大 。 因 为 a 
己 定 ，E 也 确定 了 。 如 果 E 是 正 的 ， 那 么 选择 最 小 的 E 作 为 E,， 如 果 E 是 
负 的 ， 那 么 选择 最 大 的 EE 作为 E,。 为 了 节省 计算 时 间 ， 将 所 有 E 值 保存 
在 一 个 列表 中 。 

在 特殊 情况 下 ， 如 果 内 层 循环 通过 以 上 方法 选择 的 a 不 能 使 目标 函 


数 有 足够 的 下 降 ， 那 么 采用 以 下 局 发 式 规则 继续 选择 a。 过 历 在 间 陋 边 
界 上 的 支持 问 量 点 ， 依 次 将 其 对 应 的 变量 作为 a 试用， 和 直到 目标 函数 有 
足够 的 下 降 。 知 找 不 到 合适 的 a， 那 么 过 历 训练 数据 集 ， 寿 仍 找 不 到 合 
适 的 a,， 则 放弃 第 1 个 a,， 再 通过 外 层 循环 寻求 男 外 的 a,。 


3. 计算 闵 值 b 和 差 值 E 








在 每 次 完成 两 个 变量 的 优化 后 ， 都 要 重新 计算 阔 值 b。 当 0<Q ”<C 
时 ， 由 KKT 条 件 (7.112〉 可 知 : 


N 
Pay Kn +b=7y, 
i=] 
J 
N 
b=y— Day Ki -0 yK-a, y,K (7.114) 
i=3 
由 E 的 定义 式 (7.105) 有 
N 
E= YayvK, 十 2 和 i 十 CQ y,K, FB » 
i=3 
式 (7.114) 的 前 两 项 可 写成 : 
N 
J Da 天 = 一 局 十 本 a? yp,K, +b™ 
3 


代入 式 (7.114) 可 得 


bp"™ 本 -E i ykK, (a 3 wm ) 宣 » kK (CR i We ) 十 po (人 | ] 5) 
同样 ， 如 果 0<8%2 ”<C， 那 么 ， 
pr es -E, 5 y, 了 (a™ We a ) 到 y KK (Wa 二 a ) i pu (7 ] 16) 


如 果 G ,2 同时 满足 条 件 0<Q2”<C，i 二 1,2， 那 么 人 W 二 名”。 如 
果 Q1”,Q2 是 0 或 者 C， 那 么 人 和 2” 以 及 它们 之 间 的 数 都 是 符合 KKT 条 
件 的 阔 值 ， 这 时 选择 它们 的 中 点 作为 bw。 

在 每 次 完成 两 个 变量 的 优化 之 后 ， 还 必须 更 新 对 应 的 E 值 ， 并 将 它 
们 保存 在 列表 中 。E 值 的 更 新 要 用 到 bw" 值 ， 以 及 所 有 支持 向 量 对 应 的 


d: 


] 








Er™ = ya K(x)+b™ —y, (7.117) 
Ss 











其 中 ，S 是 所 有 支持 向 量 jx 的 集合 。 
7.4.3” SMO 算法 


算法 7.5 (SMO 算 法) 

输入 : 训练 数据 集 T 二 {(x,，y,),(X,,y,).…,(X,y)}， 其 中 ，xEx 二 RR"， 
yy 一 {-1+1}，i 一 12,...,N， 精 度 E 

输出 : 近似 解 &。 

(1) 取 初 值 a% 二 0， 令 k= 二 0; 

(2) 选取 优化 变量 % ,02 ， 解 析 求 解 两 个 变量 的 最 优化 问题 
(7.101)~(7.103)， 求 得 最 优 解 ”,02”， 更 新 a 为 Q*"， 

(3) 若 在 精度 E 范 围 内 满足 停机 条 件 

N 





二 ] | w， 一 一 0! 
yg(x)==1, {x|l0<a,<C} 
三 lL tx |a, C} 
其 中 ， 
N 
2g(x,)= bp K(x, ;Xi) + p 
1=] 


则 转 (4) ， 否 则 令 k=krl， 转 (2) ; 
(4) 取 人 一 Cr+D 。 


本 前 概 要 


1. 支持 问 量 机 最 简单 的 情况 是 线性 可 分 支持 向 量 机 ， 或 硬 间 隔 支 
持 回 量 机 。 构 建 它 的 条 件 是 训练 数据 线性 可 分 。 其 学 习 策 略 是 最 大 间隔 
法 。 可 以 表示 为 凸 二 次 规划 问题 ， 其 原始 最 优化 问题 为 














0 
min 了 jw 
St. yy(wx+b)—l=0, i=1,2,…,N 
求 得 最 优化 问题 的 解 为 w"，b"， 得 到 线性 可 分 支持 向 量 机 ， 分 离 超 平面 
日 
XE 


Ww .XxX+b =0 
分 类 决策 函数 是 
f(x)=sign(w .x+D ) 
最 大 间隔 法 中 ， 函 数 间隔 与 几何 间 隅 是 重要 的 概念 。 
线性 可 分 支持 回 量 机 的 最 优 解 存在 且 唯 一 。 位 于 间隔 边界 上 的 实例 
点 为 文 持 问 量 。 最 优 分 离 超 平 面 由 文 持 问 量 完全 决定 。 
二 次 规划 问题 的 对 个 问题 是 


N N ~ 
min -> 2 QQ (Xx))— 2 
人 


isl j=l 











S.t. D0y, =0 


i=] 


2 
通常 ， 通 过 求解 对 偶 问 题 学 习 线性 可 分 支持 向 量 机 ， 即 首先 求解 对 
偶 问题 的 最 优 值 >， 然 后 求 最 优 值 w 和 b-， 得 出 分 离 超 平面 和 分 类 决策 


函数 。 

2. 现实 中 训练 数据 是 线性 可 分 的 情形 较 少 ， 训 练 数据 往往 是 近似 
线性 可 分 的 ， 这 时 使 用 线性 支持 癌 量 机 ， 或 软 间 隅 支持 向量 机 。 线 性 文 
持 癌 量 机 是 最 基本 的 支持 向 量 机 。 

对 于 噪声 或 例外 ， 通 过 引入 松弛 变量 $6， 使 其 “可 分 ”， 得 到 线性 支 
持 回 量 机 学 习 的 凸 二 次 规划 问题 ， 其 原始 最 优化 问题 是 














] 2 二 
min ~||w + CY 人 
Ww,b,é 必 i 
St. ywx+b) 二 1-é, i=1,2,…,N 


E>0, i1=1,2,.,N 


> 本 
0 
面 大 
w .XxX+b =0 


f(x)=sign(w .x+b") 
线性 可 分 支持 向 量 机 的 解 w' 唯 一 但 b 不 唯一 。 
是 


| Ne ly N 
min F220 NY “次 让 一 之 病 
i=] 


is=} j=l 
et 六 Vs 


Oa CC, i=1,2,.…,N 
线性 文 持 问 量 机 的 对 偶 学 习 算法 ， 放 先 求解 对 偶 问 题 得 到 最 优 解 
a， 然 后 求 原始 问题 最 优 解 w 和 b*， 得 出 分 离 超 平 面 和 分 类 决策 函数 。 
对 倘 问 题 的 解 a 中 满足 和 >0 的 实例 点 Xx 称 为 支持 问 量 。 文 持 癌 量 可 
在 间隔 边界 上 ， 也 可 在 间隔 边界 与 分 离 超 平面 之 间 ， 或 者 在 分 离 超 平 面 
误 分 一 侧 。 最 优 分 离 超 平 面 由 支持 问 量 完全 决定 。 
线性 支持 向 量 机 学 习 等 价 于 最 小 化 二 阶 范 数 正则 化 的 合 页 函数 
| —y,(We x +b)|. +A|| wl 
i=] 
3. 非 线 性 支持 同 量 机 
对 于 输入 空间 中 的 非 线 性 分 类 问题 ， 可 以 通过 非 线性 变换 将 它 转化 
为 茶 个 局 维特 征 空间 中 的 线性 分 类 问题 ， 在 高 维特 征 空 间 中 学 习 线性 文 
持 向 量 机 。 由 于 在 线性 支持 向 量 机 学 习 的 对 偶 问 题 里 ， 目 标 函 数 和 分 类 
































决策 函数 都 只 涉及 实例 与 实例 之 间 的 内 积 ， 所 以 不 需要 显 式 地 指定 非 线 
性 变换 ， 而 是 用 核 函 数 来 蔡 换 当中 的 内 积 。 核 函数 表示 ， 通 过 一 个 非 线 
性 转换 后 的 两 个 实例 间 的 内 积 。 有 具体 地 ，K(x,zZ) 是 一 个 核 函 数 ， 或 正定 
核 ， 意 味 着 存在 一 个 从 输入 空间 x 到 特征 空间 攻 的 映射 OOCO: 蒜 一 从， 对 
任意 xze 七 ， 有 





K(x,2)= 9 .1(z) 
对 称 函 数 K(x,z) 为 正定 核 的 充 要 条 件 如 下 对 任意 xEX，i=1,2,..m， 
任意 正 整 数 m， 对 称 函 数 K(x,z) 对 应 的 Gram 算 阵 是 半 正 定 的 。 
所 以 ， 在 线性 支持 向 量 机 学 习 的 对 偶 问 题 中 ， 用 核 函 数 K(x,z) 痊 代 
内 积 ， 求 解 得 到 的 就 是 非 线性 支持 向 量 机 


N 
f(x)=sign | 2》 Qa y K(x,x,)+b | 


i=] 





4. SMO 算 法 

SMO 算 法 是 支持 癌 量 机 学 习 的 一 种 快速 算法 ， 其 特点 是 不 断 地 将 原 
二 次 规划 问题 分 解 为 只 有 两 个 变量 的 二 次 规划 子 问题 ， 并 对 子 问 题 进行 
解析 求解 ， 直 到 所 有 变量 满足 KKT 条 件 为 止 。 这 样 通过 启发 式 的 方法 得 
到 原 二 次 规划 问题 的 最 优 解 。 因 为 子 问题 有 解析 解 ， 所 以 每 次 计算 子 问 
题 都 很 快 ， 虽 然 计 算 子 问题 次 数 很 多 ， 但 在 总 体 上 还 是 高 效 的 。 


继续 阅读 


线性 支持 癌 量 机 ( 软 间 隔 〉 由 Cortes 与 Vapnik 提 出 "。 同 时 ， 
Boser,Guyon 与 Yapnik 义 引入 核 搁 巧 ， 提 出 非 线 性 支持 癌 量 机 %。Drucker 
等 人 将 其 扩展 到 支持 问 量 回 归 %。Vapnik Vladimir 在 他 的 统计 学 习 理 论 ” 
一 书 中 对 文 持 同 量 机 的 泛 化 能 力 进行 了 论述 。 

Platt 提 出 了 支持 问 量 机 的 快速 学 习 算 法 SMOF，Joachims 实 现 的 
SVM Light， 以 及 Chang 与 Lin 实 现 的 LIBSYM 软 件 包 被 广泛 使 用 。?2 

原始 的 支持 问 量 机 是 二 类 分 类 模型 ， 又 被 推广 到 多 类 分 类 支持 同 量 
机 *"， 以 及 用 于 结构 预测 的 结构 支持 向 量 机 %。 

关于 文 持 回 量 机 的 文献 很 多 。 文 持 同 量 机 的 介绍 可 参照 文献 [9 一 
12]。 核 方法 被 认为 是 比 支持 向量 机 更 具 一 般 性 的 机 器 学 习 方 法 。 核 方 
法 的 介绍 可 参考 文献 [13 一 15]。 


习 圳 















































1.1 比较 感知 机 的 对 偶 形 式 与 线性 可 分 支持 向 量 机 的 对 偶 形 式 。 
1.2 已 知 正 例 点 X 三 (127，X 一 (2,3)，X 一 (3,3)7， 负 例 点 X 一 
(2,1)，x. 二 (3,2)， 试 求 最 大 间隔 分 离 超 平面 和 分 类 决策 函数 ， 并 在 图 上 

画 出 分 离 超 平面 、 间 隔 边 界 及 文 持 向 量 。 

1.3 ”线性 支持 向 量 机 还 可 以 定义 为 以 下 形式 ; 
| 过 
min A | +1075 


whe 











Si y(wx +b) 二 1-—5, i=1,2,…,N 


试 求 其 对 侦 形 式 。 

1.4 ”证明 内 积 的 正 整 数 容 函数 : 
Ge) = (XE 

是 正定 核 函数 ， 这 里 p 是 正 整 数 ，x,zER"。 


参考 文献 


[1] Cortes C,Vapnik V. Support-vector networks. Machine 
Learning,1995,20 

[2] Boser BE,Guyon IM,Vapnik VN. A training algorithm for optimal 
margin classifiers. In: Haussler D,ed. Proc of the 5th Annual ACM Workshop 
on COLT. Pittsburgh,PA,1992,144--152 

[3] Drucker H,Burges CJC,Kaufman L,Smola A,Vapnik V. Support 
vector regression machines. In: Advances in Neural Information Processing 
Systems 9,NIPS 1996. MIT Press,155—161 

[4] Vapnik Vladimir N. The Nature of Statistical Learning Theory. 
Berlin: Springer-Verlag,1995《〈 中 译本 : 张 学 工 ， 译 。 统 计 学 习 理 论 的 本 
质 。 北 京 : 清华 大 学 出 版 社 ，2000) 

[5] Platt JC. Fast training of support vector machines using sequential 
minimal optimization. Microsoft 
Research,http://research.microsoft.com/apps/pubs/?id=68391 

[6] Weston JAE,Watkins C. Support vector machines for multi-class 
pattern recognition. In: Proceedings of the 7th European Symposium on 
Articial Neural Networks. 1999 


[7] Crammer K,Singer Y. On the algorithmic implementation of 
multiclass kernel-based machines. Journal of Machine Learning 
Research,2001,2(Dec): 265—292 

[8] Tsochantaridis I,Joachims T,Hofmann T,Altun Y. Large margin 
methods for structured and interdependent output variables. JMLR,2005,6: 
1453-1484 

[9] Burges JC. A tutorial on support vector machines for pattern 
recognition. Bell Laboratories,Lucent Technologies. 1997 

[10] Cristianini N,Shawe-Taylor J. An Introduction to Support Vector 
Machines and Othre KernerBased Learning Methods. Cambridge University 
Press，2000 中 译本 : 李 国 正 ， 等 译 。 文 持 向 量 机 导论 。 北 京 : 电子 工 
业 出 版 社 ，2004) 

[11] 邓 乃 扬 ， 田 类 杰 。 数 据 挖掘 中 的 新 方法 一 一 文 持 向 量 机 。 北 
束 : 科学 出 版 社 ，2004 

[12] 邓 乃 扬 ， 田 类 杰 。 文 持 疝 量 机 一 一 理论 ， 算 法 与 拓展 。 北 
束 : 科学 出 版 社 ，2009 

[13] Scholkpf B,Smola AJ. Learning with Kernels: Support Vector 
Machines, Regularization,Optimization,and Beyond. MIT Press,2002 

[14] Herbrich R. Learning Kernel Classifiers,Theory and Algorithms. 
The MIT Press,2002 

[15] Hofmann T,Scholkopf B,Smola AJ. Kernel methods in machine 
learning. The Annals of Statistics, 2008,36(3): 1171-1220 




















注释 
[f(x) 称 为 仿 射 函数 ， 如 果 它 满足 f(x) 二 a:x+b，aER"，bER，xERn。 
[2] SVM Light: http://svmlight.joachims.org/.LIBSVM: 


http://www.csie.ntu.edu.tw/~cjlin/libsvm/。 


第 8 章 ”提升 方法 


提升 (boosting) 方 法 是 一 种 常用 的 统计 学 习 方 法 ， 应 用 广泛 且 有 
效 。 在 分 类 问题 中 ， 它 通过 改变 训练 样本 的 权重 ， 学 习 多 个 分 类 器 ， 并 
将 这 些 分 类 器 进行 线性 组 合 ， 提 高 分 类 的 性 能 。 

本 章 首 先 介 绍 提升 方法 的 思路 和 代表 性 的 提升 算法 AdaBoost; 然后 
通过 训练 误差 分 析 探 讨 AdaBoost 为 什么 能 够 提高 学 习 精 度 ; 并 且 从 前 问 
分 步 加 法 模型 的 角度 解释 AdaBoost; 最 后 叙述 提升 方法 更 具体 的 实例 
提升 树 (boosting tree) 。AdaBoost 算 法 是 1995 年 由 Freund 和 
Schapire 提 出 的 ， 提 升 树 是 2000 年 由 Friedman 等 人 提出 的 。 


8.1 提升 方法 AdaBoost 算 法 


8.1.1 提升 方法 的 基本 思路 


提升 方法 基于 这 样 一 种 思想 : 对 于 一 个 复杂 任务 来 说 ， 将 多 个 专家 
的 判断 进行 适当 的 综合 所 得 出 的 判断 ， 要 比 其 中 任何 一 个 专家 单独 的 判 
世 好 。 实 际 上 ， 就 是 “三 个 内皮 匠 顶 个 诸葛 亮 " 的 道理 。 

历史 上 ，Kearns 和 Valiant 首 先 提出 了 “ 强 可 学 习 (strongly 
learnable) ”和 “ 弱 可 学 习 (weakly learnable) ”的 概念 。 指 出 : 在 概率 近 
似 正确 (probably approximately correct，PAC) 学 习 的 框架 中 ， 一 个 概 
念 ( 一 个 类 ) ， 如 果 存 在 一 个 多 项 式 的 学 习 算 法 能 够 学 习 它 ， 并 且 正 确 
率 很 高 ， 那 么 就 称 这 个 概念 是 强 可 学 习 的 ; 一 个 概念 ， 如 果 存 在 一 个 多 
项 式 的 学 习 算法 能 够 学 习 它 ， 学 习 的 正确 率 仅 比 随机 猜测 略 好 ， 那 么 就 
称 这 个 概念 是 弱 可 学 习 的 。 非 常 有 趣 的 是 Schapire 后 来 证 明 强 可 学 习 与 
弱 可 学 习 是 等 价 的 ， 也 就 是 说 ， 在 PAC 学 习 的 框架 下 ， 一 个 概念 是 强 可 
学 习 的 充分 必要 条 件 是 这 个 概念 是 弱 可 学 习 的 。 

这 样 一 来 ， 问 题 便 成 为 ， 在 学 习 中 ， 如 果 已 经 发 现 了 “ 弱 学 习 算 
法 ”， 那 么 能 人 否 将 它 提 升 〈boost) 为 “ 强 学 习 算法 ”。 大 家 知道 ， 发 现 弱 
学 习 算 法 通常 要 比 发 现 强 学 习 算 法 容易 得 多 。 那 么 如 何 具体 实施 提升 ， 
便 成 为 开发 提升 方法 时 所 要 解决 的 问题 。 关 于 提升 方法 的 研究 很 多 ， 有 
很 多 算法 被 提出 。 最 具 代 表 性 的 是 AdaBoost 算 法 (AdaBoost 
algorithm ) 。 



































对 于 分 类 问题 而 言 ， 给 定 一 个 训练 样本 集 ， 求 比较 粗糙 的 分 类 规则 
〈 弱 分 类 器 ) 要 比 求 精 确 的 分 类 规则 《〈 强 分 类 器 ) 容易 得 多 。 提 升 方法 
就 是 从 弱 学 习 算 法 出 及， 反复 学 习 ， 得 到 一 系列 弱 分 类 器 《又 称 为 基本 
分 类 器 ) ， 然 后 组 合 这 些 弱 分 类 器 ， 构 成 一 个 强 分 类 融 。 大 多 数 的 提升 
方法 都 是 改变 训练 数据 的 概率 分 布 〈 训 练 数据 的 权 值 分 布 ) ， 针 对 不 同 
的 训练 数据 分 布 调用 弱 学 习 算法 学 习 一 系列 弱 分 类 器 。 

这 样 ， 对 提升 方法 来 说 ， 有 两 个 问题 需要 回答 : 一 是 在 每 一 轮 如 何 
改变 训练 数据 的 权 值 或 概率 分 布 ， 二 是 如 何 将 弱 分 类 圳 组 合成 一 个 强 分 
类 堪 。 天 于 第 1 个 问题 ，AdaBoost 的 做 法 是 ， 提 高 那些 被 前 一 轮 弱 分 类 
需 错 误 分 类 样本 的 权 值 ， 而 降低 那些 被 正确 分 类 样本 的 权 值 。 这 样 一 
来 ， 那 些 没有 得 到 正确 分 类 的 数据 ， 由 于 其 权 值 的 加 大 而 受到 后 一 轮 的 
弱 分 类 占 的 更 大 关注 。 于 是 ， 分 类 问题 被 一 系列 的 弱 分 类 右 “ 分 而 治 
之 ”。 至 于 第 2 个 问题 ， 即 弱 分 类 需 的 组 合 ，AdaBoost 采 取 加 权 多 数 表 决 
的 方法 。 有 具体 地 ， 加 大 分 类 误 兰 率 小 的 弱 分 类 器 的 权 值 ， 使 其 在 表决 中 
人 
父 外 让 5 
| 

时 























8.1.2 AdaBoost 算 法 


现在 叙述 AdaBoost 算 法 。 假 设 给 定 一 个 二 类 分 类 的 训练 数据 集 
1 = 

其 中 ， 每 个 样本 点 由 实例 与 标记 组 成 。 实 例 xexSR"， 标 记 yE》 = 
{-1+1}，x 是 实例 空间 ，J 是 标记 集合 。AdaBoost 利 用 以 下 算法 ， 从 训 
练 数据 中 学 习 一 系列 弱 分 类 器 或 基本 分 类 器 ， 并 将 这 些 弱 分 类 器 线性 组 
合成 为 一 个 强 分 类 器 。 

算法 8.1 (AdaBoost) 

输入 ， 训练 数据 集 T 二 {(x ，y)(x，y),..(x wy)}， 其 中 xEx SR 
yEY={-1,+1}; 弱 学 习 算 法 ; 

输出 : 最 终 分 类 器 G(x)。 

(1) 初始 化 训练 数据 的 权 值 分 布 


一 -一 和 "»*" 区 "»" » A es ss dh 
D =(Wiy Ws Wn), W:=—, i=1,2,.…,N 





(2) 对 M=1,2,...,m 





(a) 使 用 具有 权 值 分 布 D 的 训练 数据 集 学 习 ， 得 到 基本 分 类 器 
GC 


WL 


(b) 计算 G,(x) 在 训练 数据 集 上 的 分 类 误差 率 
e, =P(G, (x)Ay)= > w,I(G, (x,)# y,) (8.1) 


i=] 
(c) 计算 G (x) 的 系数 
] ] 一 e 
bh m (8.2) 
CQ,, 六 og e 


这 里 的 对 数 是 自然 对 数 。 
(d) 更 新 训练 数据 集 的 权 值 分 布 








a=(W Wa (8.3) 
Wi = Tm exp(—a, y,G, (x ))»， i=1,2,.…,N (8.4) 
这 里 ， Z 是 规范 化 因子 
党 二 py WwW ，exp(-w y,G, (x,)) (8.5) 


i=| 
它 使 D,, 成 为 一 个 概率 分 布 。 
(3) 构建 基本 分 类 融 的 线性 组 合 
7 





J (oo) = Ya, CO, (xX) (8.0) 
m=] 
得 到 最 终 分 类 器 
Af 
G(x) = sign( f (x))= sign B ”人 o| (8.7) 
m=] 


对 AdaBoost 算 法 作 如 下 说 明 : 
步骤 (1) 假设 训练 数据 集 具 有 均匀 的 权 值 分 布 ， 即 每 个 训练 样 
本 在 基本 分 类 器 的 学 习 中 作用 相同 ， 这 一 假设 保证 第 1 步 能 够 在 原始 数 
据 上 学 习 基 本 分 类 器 G(x)。 
步骤 (2) AdaBoost 有 反复 学 习 基 本 分 类 右 ， 在 每 一 轮 m 二 1,2,...,M 
顺 次 地 执行 下 列 操 作 : 
(a) 使 用 当前 分 布 D 加 权 的 训练 数据 集 ， 和 学 习 基 本 分 类 器 G (x)。 

















(b) 计算 基本 分 类 器 G (CO 在 加 权 训 练 数据 集 上 的 分 类 误差 率 ; 
e. =P(G, (x,)#»)= pa WwW ， (8.8) 
这 里 ，w 表示 第 m 轮 中 第 个 实例 的 权 值 ， 安 ”。 这 表明 ，G 9 在 加 
权 的 训练 数据 集 上 的 分 类 误差 率 是 被 G (四 误 分 类 样本 的 权 值 之 和 ， 由 此 
可 以 看 出 数据 权 值 分 布 D 与 基本 分 类 器 G (Co 的 分 类 误差 率 的 关系 。 
(c) 计算 基本 分 类 器 G (x) 的 系数 am。am 表 示 G (9 在 最 终 分 类 器 
] 


中 的 重要 性 。 由 式 (8.2) 可 知 ， 当 e < 时 ，a >0， 并 且 a 随 着 e 的 减 小 
而 增 大 ， 所 以 分 类 误差 率 越 小 的 基本 分 类 器 在 最 终 分 类 器 中 的 作用 越 


(d) 更 新 训练 数据 的 权 值 分 布 为 下 一 轮作 准备 。 式 (8.4) 可 以 写 





Mim a | G, (x) =y, 


Ww A 

m+1,i Ww. a 

G(X) FY 
六 


由 此 可 知 ， 被 基本 分 类 器 G(x) 误 分 类 样本 的 权 值 得 以 扩大 ， 而 被 正确 分 
类 样本 的 权 值 却 得 以 缩小 。 两 相 比较 ， 误 分 类 样本 的 权 值 被 放大 


1-@ 倍 。 因 此 ， 误 分 类 样本 在 下 一 轮 学 习 中 起 更 大 的 作用 。 不 改变 
所 给 的 训练 数据 ， 而 不 断 改变 训练 数据 权 值 的 分 布 ， 使 得 训练 数据 在 基 
本 分 类 器 的 学 习 中 起 不 同 的 作用 ， 这 是 AdaBoost 的 一 个 特点 。 

步骤 (3) ”线性 组 合 f(x) 实 现 M 个 基本 分 类 占 的 加 权 表 决 。 系 数 a_ 
表示 了 基本 分 类 器 G (x) 的 重要 性 ， 这 里 ， 所 有 a 之 和 并 不 为 1.f(x) 的 符 
写 决 定 实 例 x 的 类 ，f(x) 的 绝对 值 表 示 分 类 的 确信 和 度 。 利 用 基本 分 类 器 的 
线性 组 合 构 建 最 终 分 类 器 是 AdaBoost 的 男 一 特点 。 


8.1.3 AdaBoost 的 例子 + 


例 8.1 给 定 如 表 8.1 所 示 训 练 数 据 。 假 设 弱 分 类 器 由 x<v 或 x>v 产 
生 ， 其 国 值 v 使 该 分 类 器 在 训练 数据 集 上 分 类 误 兰 率 最 低 。 试 用 
AdaBoost 算 法 学 习 一 个 强 分 类 器 。 


表 8.1 训练 数据 表 


序号 1 2 
x 0 
》 ] ] | ] 1 | | ] ] ] 

解 ” 初 始 化 数据 权 值 分 布 


= (Wi, Way Wiio) 
w, = 0.1 i=1,2,:…,10 


二 号 6 7 8 9 10 


ko | 
Ly 
LA 
Cn 
~ 
2 
5 


对 m 王 1， 
(a) 在 权 值 分 布 为 D, 的 训练 数据 上 ， 立 值 v 取 2.5 时 分 类 误差 率 最 
低 ， 故 基本 分 类 器 为 
25 


y 
lag™ | x>2.5 
(b) G(x) 在 训练 数据 集 上 的 误差 率 e 二 P(G (x)zy) 二 0.3。 


六 证 i i 
C0) 计算 G 0 的 系数 ， 和 
(d) 更 新 训练 数据 的 权 值 分 布 : 


D, 二 全 (Ww 和 . ws WM25i， se Wi0) 





WwW,, = 天 exp(CayGIG )), 71=1,2,:…,10 
1 
D, =(0.07143,0.07143,0.07143,0.07143,0.07143,0.07143， 
0.16667,0.16667,0.16667,0.07143) 
f(x)=0.4236G (x) 
分 类 器 sign[f.(x)] 在 训练 数据 集 上 有 3 个 误 分 类 扣 。 

对 m 王 2， 

(a) 在 权 值 分 布 为 D, 的 训练 数据 上 ， 阐 值 v 是 8.5 时 分 类 误差 率 最 
低 ， 基 本 分 类 器 为 











be 
So 六 xX>8.5 
(b)G,(x) 在 训练 数据 集 上 的 误差 率 e, 二 0.2143。 
(c) 计算 a 二 0.6496。 
(d) 更 新 训练 数据 权 值 分 布 : 


D, = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.160 7， 
0.1060, 0.1060, 0.1060, 0.0455) 
f(x)=0.4236G (x)+0.6496G, (x) 
分 类 器 sign[f,(x)] 在 训练 数据 集 上 有 3 个 误 分 类 点 。 
Xm 三 3， 
2 Ca) 在 权 值 分 布 为 D, 的 训练 数据 上 ， 靖 值 v 是 5.5 时 分 类 误差 率 最 
低 ， 基 本 分 类 器 为 











网 全 i 
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(b) G(x) 在 训练 样本 集 上 的 误差 率 e, 二 0.1820。 
(c) 计算 a 二 0.7514。 
(d) 更 新 训练 数据 的 权 值 分 布 : 
D 三 (0.125,0.125,0.125,0.102,0.102,0.102,0.065,0.065,0.065,0.125) 
于 是 得 到 : 
f(x)=0.4236G (x)+0.6496G, (x) +0.7514G, (x) 
分 类 器 sign[f Co9O] 在 训练 数据 集 上 误 分 类 点 个 数 为 0。 
于 是 最 终 分 类 器 为 
G(x)= sign[f,(x)]= sign[0.4236G (x) + 0.6496G, (x)+ 0.7514G, (x)] 回 


8.2 ” AdaBoost 算 法 的 训练 误差 分 析 


AdaBoost 最 基本 的 性 质 是 它 能 在 学 习 过 程 中 不 断 减 少 训练 误差 ， 即 
在 训练 数据 集 上 的 分 类 误差 率 。 关 于 这 个 问题 有 下 面 的 定理 : 

定理 8.1(AdaBoost 的 训练 误差 界 ) AdaBoost 算 法 最 终 分 类 器 的 
训练 误差 界 为 


] < ] 
NT1(GG ) 关 »,)< 2 ep] (x,)) = 图 区 夫 (8.9) 
IY 1=| f 


这 里 ,G(x),f(x) 和 Zz 分 别 由 式 (8.7) 、 式 (8.6) 和 式 (8.5) 给 出 。 
证 明 当 G(X)zy 时 ，yf(x)<0， 因 而 exp(-yf(x))>1。 由 此 下 接 推 导出 
前 半 部 分 。 
后 半 部 分 的 推导 要 用 到 Z. 的 定义 式 〈8.5) 及 式 〈8.4) 的 变形 : 
W，exp( -CQ DO (X)) = 


及 
mt mi~m m mtli 








现 推导 如 下 : 


REP Gs) 


= Ee -> WY (x )| 


m=] 


= > WwW, Tt exp(-C, »,G, (x,)) 


省 二 | 


= 也 WwW, | exp(—0,y,G, (x,)) 


MM 
= ZL, M)， | exp(—Q,, »y,G, (x,)) 
i m=3 


= LL Ly Ww EXP(—Q YGy (%;)) 


MM 
一 [4 二 


m=] 
这 一 定理 说 明 ， 可 以 在 每 一 轮 选 取 适 当 的 G 使 得 Z 最 小 ， 从 而 使 训 
练 误差 下 降 最 快 。 对 二 类 分 类 问题 ， 有 如 下 结果 : 
定理 8.2〈 二 类 分 类 问题 AdaBoost 的 训练 误差 界 ) 


Af M Af Mi 
1 12, =] [2Ve,l—e,)]=T V0 -4y,)< ep| -2 (8.10) 
西 =] m=| 


m=| 由 =| 


这 里 , 了 三 2-e 。 
证 明 由 2Z. 的 定义 式 〈8.5) 及 式 (8.8) 得 


~N 
Ln > Ws exp(—0, 山 CO， (2 )) 
i=l 


-Om }» Cm 
S Whi Cc 十 Wi e 


入 =G,, (7 ) » GO, ( 石 ) 


一 Gam Cm 
二 村 一 区 和 怒 -“” 十 医治 


=2Ve,(l—e, F 1—4y,, (8.11) 


至 于 不 等 式 


M 
4y,, ) < op [2 六 


=] n=] 
则 可 先 由 e 和 VEx 在 点 x 一 0 的 泰勒 展开 式 推出 不 等 式 VE Jseet2x) 进 而 
得 到 。 
推论 8.1 ”如果 存 在 Y>0， 对 所 有 m 有 7 >Y， 则 


-> I(G(x,)#y.)<exp(-2My’) (8.12) 
这 表明 在 此 条 件 下 AdaBoost 的 训练 误差 是 以 指数 速率 下 降 的 。 这 一 
性 质 当 然 是 很 有 吸引 力 的 。 
注意 ，AdaBoost 算 法 不 需要 知道 下 界 .。 这 正 是 Freund 与 Schapire 设 
计 AdaBoost 时 所 考虑 的 。 与 一 些 早期 的 提升 方法 个 同 ， AdaBoost 具 有 适 
应 性 ， 即 它 能 适应 弱 分 类 器 各 目的 训练 误差 紊 。 这 也 是 它 的 名 称 ( 适 应 
的 提升 ) 的 由 来 ，Ada 是 Adaptive 的 简写 。 


8.3 AdaBoost 算 法 的 解释 


AdaBoost 算 法 还 有 另 一 个 解释 ， 即 可 以 认为 AdaBoost 算 法 是 模型 为 
加 法 模型 、 损 失 函 数 为 指数 函数 、 学 习 算法 为 前 癌 分 步 算 法 时 的 二 类 分 
类 学 习 力 大 3 











8.3.1 ”前 问 分 步 算法 
考虑 加 法 模型 (additive model) 
f= > pbsy,) (8.13) 


bcy ) 为 基 函 数 ， /为 基 函 数 的 参数 ，B 为 基 函 数 的 系数 。 
然 ， 式 (8.6) 是 一 个 加 法 模型 。 
在 给 定 训练 数据 及 损失 函数 L(Y,f(X)) 的 条 件 下 ， 学 习 加 法 模型 f(x) 
成 为 经 验 风 险 极 小 化 即 损失 函数 极 小 化 问题 : 


pin > b(x,;y,,) )| (8.14) 


通常 这 是 一 个 复杂 的 优化 问题 前 向 分 步 算法 (forward stagewise 
algorithm) 求解 这 一 优化 问题 的 想法 是 : 因为 学 习 的 是 加 法 模型 ， 如 果 








能 够 从 前 问 后 ， 每 一 步 只 学 习 一 个 基 沙 数 及 其 系数 ， 近 优 化 目标 
函数 式 〈8.14) ， 那 么 就 可 以 简化 优化 的 复杂 度 。 人 每 步 只 需 优 
化 如 下 损失 函 数 


min DL(» ,Pb(x,; 7)) (8.15) 


给 定 训 统 数 据 集 T= {x,, y),K,, y),...,Ky)) ,XEXER",yEY= 
{-1,+1}。 损 失 函 数 L(Y,f(X)) 和 基 函 数 的 集合 {b(x;Y)}， 学 习 加 法 模型 f(x) 
的 前 问 分 步 算 法 如 下 : 

算法 8.2《〈 前 向 分 步 算 法 ) 

输入 : 训练 数据 集 T={(x，y),(x，y) (CsyJ}， 损失 函数 
L(Y,f(X)); 基 函 数 集 {b(Cx/)}; 

输出 : 加 法 模型 f(x)。 

(1) 初始 化 f(x) 二 0 
(2) 对 m= 二 1,2,...,M 
(a) 极 小 化 损失 函数 


(B75) =argmin 2 L(y;, 1(%) + Bb(x;7)) (8.16) 
得 到 参数 pP，Y 
(b) 更 新 
fh (x)= f(x) + Bb(x;y,) (分 
(3) 得 到 加 法 模型 
i 
-= >) (8.18) 


m=] 


El 
这 样 ， 前 向 分 步 算法 将 同时 求解 从 m 二 1 到 M 所 有 参数 B,，X, 的 优化 
问题 简化 为 逐次 求解 各 个 B,，Y ,的 优化 问题 。 


8.3.2 ”前 问 分 步 算 法 与 AdaBoost 


由 前 癌 分 步 算 法 可 以 推导 出 AdaBoost， 用 定理 叙述 这 一 关系 。 

定理 8.3 ”AdaBoost 算 法 是 前 癌 分 步 加 法 算法 的 特例 。 这 时 ， 模 型 
是 由 基本 分 类 器 组 成 的 加 法 模型 ， 损 失 函 数 是 指数 函数 。 

证 明 ”前 向 分 步 算 法 学 习 的 是 加 法 模型 ， 当 基 冰 数 为 基本 分 类 器 


时 ， 该 加 法 模型 等 价 于 AdaBoost 的 最 终 分 类 器 
Af 
FY (8.19) 
m=| 
由 基本 分 类 器 G(x) 及 其 系数 a 组 成 ，m 二 1,2,.….,M。 前 问 分 步 算 法 逐一 
学 习 基 函数 ， 这 一 过 程 与 AdaBoost 算 法 逐一 学 习 基本 分 类 器 的 过 程 一 
致 。 下 面 证 明 前 同 分 步 算 法 的 损失 函数 是 指数 损失 函数 (exponential 


loss function ) 





L(y, f(x))= exp[—yf (2)] 
时 ， 其 学 习 的 具体 操作 等 价 于 AdaBoost 算 法 学 习 的 具体 操作 。 
假设 经 过 m-1 轮 迭代 前 同 分 步 算法 已 经 得 到 f (x): 
Fa) = te ii 
=QG(xX)+…+Q, G(xX) 
在 第 m 轮 迭代 得 到 a，G.,CO 和 f.(C)。 
J =) a (x) 
目标 是 使 前 向 分 步 算法 得 到 的 am 和 G (x) 使 f (x) 在 训练 数据 集 T 上 的 指数 
损失 最 小 ， 即 





六 一 ] 


(&,,G, (xX)) = arg min Dexp[—y, (fo (x)+aG(x))] (8.20) 
QU 蕊 ] 
式 〈8.20) 可 以 表示 为 
N 
(2 ,CO (Xx)) = arg min pa w,, exp[—y,aG(x,)| (8.21) 
,tr i=] 


其 中 ，Ww 二 exp[-yf,,(x)]。 因 为 Ww 既 不 依赖 a 也 不 依赖 于 G， 所 以 与 最 小 
化 无 关 。 但 Ww 依赖 于 f(x)， 随 着 每 一 轮 夫 代 而 发 生 改 变 。 

现 证 使 式 (8.21) 达到 最 小 的 8% 和 G5 就 是 AdaBoost 算 法 所 得 到 的 a， 
和 G (x)。 求 解 式 (8.21) 可 分 两 步 : 

首先 ， 求 G6,。 对 任意 a>0， 使 式 (8.21) 最 小 的 G(x) 由 下 式 得 到 : 


N 
G (x) = a min 2 wT(y, * G(x,)) 
其 中 ，Ww 二 exp[-y f(x)]。 
此 分 类 器 Cm 即 为 AdaBoost 算 法 的 基本 分 类 器 G,(x)， 因 为 它 是 使 第 m 
轮 加 权 训 练 数据 分 类 误差 率 最 小 的 基本 分 类 器 。 





有 求 Qw。 参 照 式 (8.11) ， 式 (8.21) 中 
部 exp[—»,aG(x)] 


二 FT au py a 
三 py We” 于 > We 


WW=0,(%) YG,(») 
N N 
=(€" =6")) ly OD) te Dn, (8.22) 
i=] i=| 


将 已 求 得 的 G5(x) 代 入 式 (8.22) ， 对 a 求 导 并 使 导数 为 0， 即 得 到 使 式 
(8.21) 最 小 的 a。 





二 ] | a 
Cn a O08 
2 70 
其 中 ，e 是 分 类 误差 率 : 
N 
2 Wl 大 入 { 汉 ) | 
i=] 


> Wi 
i=] 


这 里 的 ww 与 AdaBoost 算 法 第 2(O 步 的 a 完全 一 致 。 
最 后 来 看 每 一 轮 样本 权 值 的 更 新 。 由 
££ = 06. (内 
以 及 Wm 二 exp[-y,f,,(x)]， 可 得 
w exp[—y.a, CO (x)] 


三 W 
m+], mi log! .Aes 


这 与 AdaBoost 算 法 第 2(d) 步 的 样本 权 值 的 更 新 ， 只 相差 规范 化 因 


子 ， 因 而 等 价 。 
8.4 提升 树 


提升 树 是 以 分 类 树 或 回归 树 为 基本 分 类 器 的 提升 方法 。 提 升 树 被 认 
为 是 统计 学 习 中 性 能 最 好 的 方法 之 一 。 


8.4.1 ”所 升 树 模型 





By 


提升 方法 实际 采用 加 法 模型 〈 即 基 函 数 的 线性 组 合 ) 与 前 癌 分 步 算 
法 。 以 决策 树 为 基 函 数 的 提升 方法 称 为 提升 树 (boosting tree) 。 对 分 类 
问题 决策 树 是 二 叉 分 类 树 ， 对 回归 问题 决策 树 是 二 又 回归 树 。 在 例 8.1 
中 看 到 的 基本 分 类 器 x<v 或 >v， 可 以 看 作 是 由 一 个 根 结 点 直接 连接 两 个 
叶 结 点 的 简单 决策 树 ， 即 所 请 的 决策 树桩 (decision stump) 。 提 升 树 模 
型 可 以 表示 为 决策 树 的 加 法 模型 : 


fi(0= > T(x;0,,) (8.23) 


i=] 


其 中 ，T(x;B,) 表 示 决 琐 树 ; ,为 决策 树 的 参数 ，M 为 树 的 个 数 。 


8.4.2 ”提升 树 算法 


提升 树 算法 采用 前 同 分 步 算 法 。 首 先 确 定 初始 提升 树 f(x) 二 0， 第 m 
步 的 模型 是 
f(x)= f(x) +T(x;O,) (8.24) 
其 中 ，f (x) 为 当前 模型 ， 通 过 经 验 风 险 极 小 化 确定 下 一 棵 决策 树 的 参数 
9 ， 


m 


N 
3 Eb mn 2 L(y Ly (2 ) T(x, ， = )) (8.25) 


由 于 树 的 线性 组 合 可 以 很 好 地 拟 合 训练 数据 ， 即 使 数据 中 的 输入 与 
笨 出 之 间 的 关系 很 复杂 也 是 如 此 ， 所 以 提升 树 是 一 个 高 功能 的 学 习 算 


法 。 

下 面 讨论 针对 不 同 问题 的 提升 树 学 习 算 法 ， 其 主要 区 别 在 于 使 用 的 
损失 函数 不 同 。 包 括 用 平方 误差 损 失 函 数 的 回归 问题 ， 用 指数 损失 函数 
的 分 类 问题 ， 以 及 用 一 般 损 失 函 数 的 一 般 决 策 问题 。 

对 于 二 类 分 类 问题 ， 提 升 树 算 法 只 需 将 AdaBoost 算 法 8.1 中 的 基本 
分 类 器 限制 为 二 类 分 类 树 即 可 ， 可 以 说 这 时 的 提升 树 算 法 是 AdaBoost 算 
法 的 特殊 情况 ， 这 里 不 再 细 述 。 下 面 叙 述 回 归 问 题 的 提升 树 。 

己 知 一 个 训练 数据 集 T 二 {x,，y,),(X,y,),…,(X,y)}，X,EXSR"，x 为 输 
入 空间 ，yEY》 ESR， 为 输出 空间 。 在 5.5 节 中 已 经 讨论 了 回归 树 的 问 
题 。 如 果 将 输入 空间 x 划 分 为 J 个 互 不 相交 的 区 域 R,R,...,R， 并 且 在 每 个 
区 域 上 确定 输出 的 常量 c， 那 么 树 可 表示 为 


T(x;©)= Yc I(xeR,) (8.26) 























其 中 ， 参 数 9 二 {(R,,c),(R,c,),….,(R,0)} 表 示 树 的 区 域 划分 和 各 区 域 上 的 
常数 。J 是 回归 树 的 复杂 上 度 即 叶 结 点 个 数 。 
回归 问题 提升 树 使 用 以 下 前 癌 分 步 算法 : 
fo(x)=0 
f(x)= fx)+T(x;O, ), m=1,2,..…,M 


M 
Ft > TERG) 


功 =| 
在 前 同 分 步 算法 的 第 m 步 ， 给 定 当 前 模型 f,,(x)， 逢 求解 
N 
,=argmin ,LO fest) + T0450.)) 
得 到 9,， 即 第 m 棵 树 的 参数 。 
当 采 用 平方 误差 损失 函数 时 ， 
L(y,f(x)=(y- f(x) 


其 损失 变 为 
L(y, f(x)+T(x;©, )) 
=[y— f(x) -T(x;O, )] 
=[r-7T(x;©O, )J 
这 里 ， 
r= mi) (8.27) 


是 当前 模型 拟 合 数据 的 残 差 〈residual) 。 所 以 ， 对 回归 问题 的 提升 树 算 
法 来 说 ， 只 需 简 单 地 拟 合 当 前 模型 的 残 差 。 这 样 ， 算 法 是 相当 简单 的 。 
现 将 回归 问题 的 提升 树 算 法 叙述 如 下 。 

算法 8.3《〈 回 归 问 题 的 提升 树 算 法 ) 

输入 : 训练 数据 集 T=={(x,，y),(X,y),..,(X,y)}, XEXER', ye 


R; 
输出 : 提升 树 f (x)。 
(1) 初始 化 fCoO=0 
(2) 对 m= 二 1,2,...,M 
(a) 按 式 (8.27) 计算 残 差 
r= f(s i=1,2,.N 
(b)〉 拟 合 残 差 r 学 习 一 个 回归 树 ， 得 到 T(x ;9 ) 


C 


Cc) 更 新 f(x) 二 fi,0O)+T(X ;,) 
(3) 得 到 回归 问题 提升 树 
Mf 


f(D = 7(x:0,) 四 


m=] 


例 8.2 ”已 知 如 表 8.2 所 示 的 训练 数据 ，x 的 取 值 范围 为 区 间 
[0.5,10.5]，y 的 取 值 范围 为 区 间 [5.0,10.0]， 学 习 这 个 回归 问题 的 提升 树 
模型 ， 考 虑 只 用 树桩 作为 基 函 数 。 

表 8.2 ”训练 数据 表 


| 2 3 + 5 6 7 8 9 10 


$5.56 5.70 5.9] 6.40 6.80 7.05 8.90 8.70 9.00 9.05 


按照 算法 8.3， 第 1 步 求 f(x) 即 回归 树 T(x)。 
先 通过 以 下 优化 问题 : 


min| min ba (»,—c) +min > (Wi6 a 
“ .Eh 2 TEeR, 
求解 训练 数据 的 切 分 点 s: 
R={x|x<s}, R={x|x>s} 
容易 求 得 在 R,，R, 内 部 使 平方 损失 误差 达到 最 小 值 的 c,，c, 为 
] ] 
可 过 一 一 其 而 二 一 一 用 
AN， ER N, EeR, 
这 里 N,，N ,是 R,，R. 的 样本 点 数 。 
求 训练 数据 的 切 分 点 。 根 据 所 给 数据 ， 考 虑 如 下 切 分 点 : 
1.5, 2.5, 3.5, 4.5，5.5, 6.5, 7.5,，8.5,，9.5 
对 各 切 分 点 ， 不 难 求 出 相应 的 R,，R,，c,，c, 及 
m(s) = min > (y,—c) +min 2 (y,—c,) 
“| ER 2 veR, 
例如 ， 当 s==1.5 时 ,R= 二 {1}, RBR,={2,3,...,10}, c= 二 5.56，c, 二 7.50， 
m(s) = min (y. -cy) + min bp (%, =—©, )} =0+15.72 =15.72 
9 x ERI 2 weR, 
现 将 s 及 m(s) 的 计算 结果 列表 如 下 ( 见 表 8.3) 。 
表 8.3 ”计算 数据 表 





解 
首 


S$ 1.5 2.5 3 4.5 $5 6.5 和 8.5 9.5 
ml(s) 15.72 12.07 8.36 5.78 3.9] 1.93 8.01 11.73 15.74 


由 表 8.3 可 知 ， 当 s 二 6.5 时 m(s) 达 到 最 小 值 ， 此 时 R, 二 {1,2,.….,6}，R, 
二 {7,8,9,10}，c 二 6.24，c, 二 8.91， 所 以 回归 树 T(x) 为 
i Se 
1, X 二 0. 


/1(x)=T (x) 
用 f(x) 拟 合 训练 数据 的 残 天 见 表 8.4， 表 中 ,二 y-f(x)，i 二 1,2， 
...,10。 


表 8.4 ” 葡 差 表 


x 1 2 3 4 5 6 7 8 9 10 
的， -0.68 -0.54 -0.33 0.16 0.56 0.81 0.0] -0.2] 0.09 0.14 


用 f(x) 拟 合 训 练 数据 的 平方 损失 误差 : 
10 
L(y, f(x)) = 20; — f(x)) =1.93 


i=] 
第 2 步 求 T(x)。 方 法 与 求 T(x) 一 样 ， 只 是 拟 合 的 数据 是 表 8.4 的 残 
差 。 可 以 得 到 : 
I x<3.5 
D(x)= 
0.22, 光 芝 汪汪 


SI Ws 
f(x)= f(x)+TD(x) =16.46, 3.5<x<6.5 
1 


用 f.(x) 拟 合 训练 数据 的 平方 损失 误差 是 
10 
L(y, f(x))=2,0, -f(x)) =0.79 
i=] 
继续 求 得 


有 =] 0 
的 -| es L(y, f.(x)) =0.23, 
n= 2 


”10.04, X 三 2.4 
fx)= f(x) +T(x)=Tx) +…+ T(x) + T(x) 
6% weds 
人 
=16.56, 3.5<x<4.5 
6.83, 4.5<x<6.5 
8.95, x6.5 
用 f(x) 拟 合 训 练 数 据 的 平方 损失 误差 是 


10 


L(y, f(x)= 2 -1(%)) =0.17 
假设 此 时 已 满足 误差 要 求 ， 那 么 f(x) 二 f(x) 即 为 所 求 提升 树 。 


8.4.3 ”梯度 提升 


提升 树 利用 加 法 模型 与 前 向 分 步 算 法 实现 学 习 的 优化 过 程 。 当 损失 
函数 是 平方 损失 和 指数 损失 函数 时 ， 每 一 步 优 化 是 很 简单 的 。 但 对 一 般 
损失 函数 而 言 ， 往 往 每 一 步 优 化 并 不 那么 容易 。 针 对 这 一 问题 ， 
Freidman 提 出 了 梯度 提升 〈gradient boosting) 算法 。 这 是 利用 最 速 下 降 
法 的 近似 方法 ， 其 关键 是 利用 损失 函数 的 负 梯 度 在 当前 模型 的 值 


of (x,) f(x)= fm (7X) 


作为 回归 问题 提升 树 算法 中 的 残 莽 的 近似 值 ， 拟 合 一 个 回归 树 。 








算法 8.4《〈 梯 度 提 升 算法 ) 
输入 : 训练 数据 集 T 王 {(x ，y),(xsy) (xy )}，xXEXSER'，yEJ7 
SR; 损失 函数 L(Y,f(X)); 
输出 : 回归 树 /(x)。 
(1) 初始 化 
f(x) = arg min EC 二 


(2) 对 m 王 12,...,M 
(a) 对 i 二 1,2,...,N， 计 算 


Of (% ) f(x yi (Cx) 


Mb) 对 r, 拟 合 一 个 回归 树 ， 得 到 第 mm 柠 树 的 叶 结 点 区 域 R,，j 王 12， 


(CC ) 对 j 王 12,...,J， 计算 
= » Ed i) 


x ER 


Ly 更 省 下- 大 的; eve eR,) 
(3) 得 到 回归 树 


有 = 四 

算法 第 1 步 初始 化 ， 估 计 使 损失 函数 极 小 化 的 常数 值 ， 它 是 只 有 一 
个 根 结 点 的 树 。 第 2(a) 步 计算 损失 函数 的 负 梯 度 在 当前 模型 的 值 ， 将 它 
作为 残 差 的 估计 。 对 于 平方 损失 函数 ， 它 就 是 通常 所 说 的 残 差 ， 对 于 一 
般 损失 函数 ， 它 就 是 残 差 的 近似 值 。 第 2(b) 步 估计 回归 树叶 结 点 区 域 ， 
以 拟 合 残 差 的 近似 值 。 第 2(O 步 利用 线性 搜索 估计 叶 结 点 区 域 的 值 ， 使 
损失 函数 极 小 化 。 第 2(d) 步 更 新 回归 树 。 第 3 步 得 到 输出 的 最 终 模型 产 


(X). 
本 划 概 要 


1. 提升 方法 是 将 弱 学 习 算法 提升 为 强 学 习 算 法 的 统计 学 习 方 法 。 
在 分 类 学 习 中 ， 提 升 方法 通过 反复 修改 训练 数据 的 权 值 分 布 ， 构 建 一 系 











列 基本 分 类 絮 ( 弱 分 类 器 ) ， 并 将 这 些 基 本 分 类 器 线性 组 合 ， 构 成 一 个 
强 分 类 堪 。 人 代表 性 的 提升 方法 是 AdaBoost 算 法 。 
AdaBoost 模 型 是 弱 分 类 右 的 线性 组 合 : 
Md 
= > 站 加 的 
用 =] 
2. AdaBoost 算 法 的 特点 是 通过 迭代 每 次 学 习 一 个 基本 分 类 器 。 
次 迭代 中 ， 提 高 那些 被 前 一 轮 分 类 塔 错误 分 类 数据 的 权 值 ， 而 降低 那些 
被 正确 分 类 的 数据 的 权 值 。 最 后 ，AdaBoost 将 基本 分 类 器 的 线性 组 合作 
为 强 分 类 器 ， 其 中 给 分 类 误差 率 小 的 基本 分 类 器 以 大 的 权 值 ， 给 分 类 误 
并 率 大 的 基本 分 类 器 以 小 的 权 值 。 
3. AdaBoost 的 训练 误差 分 析 表 明 ，AdaBoost 的 每 次 迭代 可 以 减少 
它 在 训练 数据 集 上 的 分 类 误差 紊 ， 这 说 明了 它 作 为 提升 方法 的 有 效 性 。 
4. AdaBoost 算 法 的 一 个 解释 是 该 算法 实际 是 前 问 分 步 算 法 的 一 个 
实现 。 在 这 个 方法 里 ， 模 型 是 加 法 模型 ， 损 失 函 数 是 指数 损失 ， 算 法 是 
前 问 分 步 算法 。 
每 一 步 中 极 小 化 损失 函数 


N 
(pn, 7n) = arg min DL(hr ty)+ Bo)) 
i=l 


得 到 参数 B,,， Vm。 
5. 提升 树 是 以 分 类 树 或 回归 树 为 基本 分 类 需 的 提升 方法 。 提 升 树 
被 认为 是 统计 学 习 中 最 有 效 的 方法 之 一 。 


继续 阅读 


提升 方法 的 介绍 可 参见 文献 [1,2]。PAC 学 习 可 参见 文献 [3]。 强 可 学 
习 与 弱 可 学 习 的 关系 可 参见 文献 [4]。 关 于 AdaBoost 的 最 初 论 文 是 文献 
[5]。 关 于 AdaBoost 的 前 同 分 步 加 法 模型 解释 参见 文献 [6]， 提 升 树 与 梯 
度 提 升 可 参见 文献 [6,7]。AdaBoost 只 是 用 于 二 类 分 类 ，Schapire 与 Singer 
问题 w。。AdaBoost 与 逻辑 斯 请 回 归 的 关系 也 有 相关 
研究 "。 




















习题 


8.1 某 公 司 招聘 职员 考查 身体 、 业 务 能 力 、 发 展 潜力 这 3 项 。 身 体 
分 为 合格 1、 不 合格 0 两 级 ， 业 务 能 力 和 发 展 潜力 分 为 上 1、 中 2、 下 3 三 








级 。 分 类 为 合格 1、 不 合格 -1 两 类 。 已 知 10 个 人 的 数据 ， 如 下 表 所 示 。 
假设 弱 分 类 器 为 决策 树桩 。 试 用 AdaBoost 算 法 学 习 一 个 强 分 类 器 。 
应 聘 人 员 情 况 数 据 表 





| 2 3 4 5 6 7 8 9 10 
身体 0 0 | | | 0 1 1 1 0 
业务 | 3 2 | 2 | | | 3 2 
潜力 3 | 2 3 3 2 2 | | | 
分 类 | ] | | ] | | ] | | 


8.2 ”比较 支持 向 量 机 、AdaBoost、 逮 辑 斯 详 回 归 模 型 的 学 习 策 略 


与 算法 。 
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注释 
加 例题 来 源 于 http:/www.csie.edu.tw。 


第 9 章 EM 算法 及 其 推广 


EM 算法 是 一 种 迭代 算法 ，1977 年 由 Dempster 等 人 总 结 提出 ， 用 于 
含有 隐 变 量 (hidden variable) 的 概率 模型 参数 的 极 大 似 然 估 计 ， 或 极 大 
后 验 概率 估计 。EM 算 法 的 每 次 迭代 由 两 步 组 成 : E 步 ， 求 期 望 
(expectation) ; M 步 ， 求 极 大 (maximization) 。 所 以 这 一 算法 称 为 期 
望 极 大 算法 〈expectation maximization algorithm ) ， 简 称 EM 算 法 。 本 章 
首先 叙述 EM 算法 ， 然 后 讨论 EM 算法 的 收敛 性 ;作为 EM 算法 的 应 用 ， 
介绍 高 斯 混合 模型 的 学 习 ; 最 后 叙述 EM 算法 的 推广 一 -GEM 算 法 。 


9.1 EM 算法 的 引入 


概率 模型 有 时 既 含 有 观测 变量 (observable variable) ， 又 含有 隐 变 
量 或 潜在 变量 (latent variable) 。 如 果 概 率 模 型 的 变量 都 是 观测 变量 ， 
那么 给 定数 据 ， 可 以 直接 用 极 大 似 然 估 计 法 ， 或 贝 叶 斯 估计 法 估计 模型 
参数 。 但 是 ， 当 模型 含有 隐 变 量 时 ， 融 不 能 简单 地 使 用 这 些 估计 方法 。 
EM 算法 就 是 含有 隐 变 量 的 概率 模型 参数 的 极 大 似 然 估 计 法 ， 或 极 大 后 
es 我 们 仪 讨论 极 大 似 然 估计 ， 极 大 后 验 概率 估计 与 其 类 
以 5 


























9.1.1 EM 算法 


首先 介绍 一 个 使 用 EM 算法 的 例子 。 

例 9.1《〈 三 硬币 模型 ) ”假设 有 3 枚 硬币， 分 别 记 作 A，B，C。 这 些 
硬币 正面 出 现 的 概率 分 别 是 让，p 和 q。 进 行 如 下 掷 便 币 试验 : 先 掷 硬币 
A， 根 据 其 结果 选 出 硬币 B 或 硬币 C， 正 面 选 硬币 B， 反 面 选 硬币 C; 然 
后 掷 选 出 的 硬币 ， 搬 硬币 的 结果 ， 出 现 正 面 记 作 1， 出 现 反 面 记 作 0; 独 
立地 重复 n 次 试验 (这 里 ，n 二 10)， 观 测 结 果 如 下 : 

1,1,0,1,0,0,1,0,1,1 
假设 只 能 观测 到 掷 硬币 的 结果 ， 不 能 观测 掷 硬币 的 过 程 。 问 如 何 估计 三 
硬币 正面 出 现 的 概率 ， 即 三 硬币 模型 的 参数 。 

解 三 硬币 模型 可 以 写作 





P(y|0)= > P(y,z10)= 2 P(z|0)P(y|z,0) 


= 和 pr- 六 +(1 -x)g’ (1 -gqg)™ (9.1) 
这 里 ， 随 机 变量 y 是 观测 变量 ， 表 示 一 次 试验 观测 的 结果 是 1 或 0; 随机 
变量 z 是 隐 变 量 ， 表 示 未 观测 到 的 掷 硬币 A 的 结果 ; 8 二 (下,p，9q) 是 模型 
参数 。 这 一 模型 是 以 上 数据 的 生成 模型 。 注 意 ， 随 机 变量 y 的 数据 可 以 
观测 ， 随 机 变量 z 的 数据 不 可 观测 。 
将 观测 数据 表示 为 Y= 二 (Y,，YY,.….,Y)， 未 观测 数据 表示 为 Z=(Z,,Z,， 
ZJ， 则 观测 数据 的 似 然 函 数 为 




















P(Y|0)= YP(Z10)P(Y|2,0) (9.2) 
即 
P(Y10)=TItzp" 0-p) “+(1-x)q" (1-g) 二] (9.3) 
考虑 求 模型 参数 0 一 ( 丰 ,p,q) 的 极 大 似 然 估计 ， 即 
0=arg max log P(Y |0) (9.4) 


这 个 问题 没有 解析 解 ， 只 有 通过 迭代 的 方法 求解 。EM 算 法 就 是 可 
以 用 于 求解 这 个 问题 的 一 种 迭代 算法 。 下 面 给 出 针对 以 上 问题 的 EM 算 
EM 算法 首先 选取 参数 的 初 值 ， 记 作 6° 二 (到 %,p%,g")， 然 后 通过 下 
面 的 步 又 迭代 计算 参数 的 估计 值 ， 直 至 收敛 为 止 。 第 i 次 迭代 参数 的 估 
计 值 为 O° 二 (到,p%,q")。EM 算 法 的 第 it1 次 迭代 如 下 。 
E 步 : 计算 在 模型 参数 玉 ?，p%*，qr" 下 观测 数据 y 来 自 撕 硬 币 B 的 概率 
hnD _ 元 人 一 (9.5) 
x"(p)(-p) +(-x )( (1-qg ) 
M 步 : 计算 模型 参数 的 新 估计 值 


A 


A Ee > +1) (9.6) 


A 
ee (9.7) 
j=] 
>a-p") 
qn = 二 一 (9.8) 
>,(1— a ») 


j=] 
进行 数字 计算 。 假 设 模 型 参数 的 初 值 取 为 
A =0.5, pV =0.5, gq =0.5 
由 式 (9.5) ， 对 y 一 1 与 y 二 0 均 肛 二 0.5。 
利用 迭代 公式 〈9.6) 一 〈9.8) ， 得 到 
A =0.5, p=0.6, gt =0.6 





由 式 (9.5) ， 
nals OF 
继续 迄 代 ， 得 
=0.5, p=0.6, gO=0.6 
于 十 a 
B= 0 D00s v=06 

二 0.5 表 示人 硬币 A 是 均匀 的 ， 这 一 结果 容易 理解 。 

如 果 取 初 值 凡 % 二 0.4，p®" 二 0.6，q” 二 0.7， 那 么 得 到 的 模型 参数 的 极 
大 似 然 估计 是 友 ==0.4064，P= 二 0.5368，9 二 0.6432。 这 就 是 说 ，EM 算 法 
与 初 值 的 选择 有 关 ， 选 择 不 同 的 初 值 可 能 得 到 不 同 的 参数 估计 值 。 

一 般 地 ， 用 Y 表 示 观 测 随 机 变量 的 数据 ，Z 表 示 隐 随机 变量 的 数 
据 。Y 和 Z 连 在 一 起 称 为 完全 数据 〈complete-data) ， 观 测 数据 Y 又 称 为 
不 完全 数据 〈incomplete-data) 。 假 设 给 定 观测 数据 Y， 其 概率 分 布 是 
P(YIO), 其 中 @ 是 需要 估计 的 模型 参数 ， 那么 不 完全 数据 Y 的 似 然 函数 是 





P(Y|6)， 对 数 似 然 函数 L( 久 二 logP(Y|); 假设 Y 和 Zz 的 联合 概率 分 布 是 
P(Y，Z|0)， 那 么 完全 数据 的 对 数 似 然 函数 是 logP(Y，Z|0)。 
EM 算法 通过 迭代 求 L( 久 二 logP(Y|0) 的 极 大 似 然 估计 。 每 次 迭代 包 
含 两 步 : E 步 ， 求 期 望 ，M 步 ， 求 极 大 化 。 下 面 来 介绍 EM 算法 。 
算法 9.1 (EM 算法 ) 
输入 : 观测 变量 数据 Y， 隐 变量 数据 Zz， 联 合 分 布 P(Y，ZI0)， 条 件 
分 布 PCZIY,O); 
输出 : 模型 参数 0。 
(1) 选择 参数 的 初 值 9%*， 开 始 迭 代 ; 
(2) E 步 : 记 0 为 第 i 次 迭代 参数 0 的 估计 值 ， 在 第 it1 次 迭代 的 EE 
步 ， 计 算 
0(0,0")=E,[log P(Y,Z|0)|Y,0"] 


= > logP(Y,Z|0)P(Z|Y,0") (9.9) 


这 里， P(ZIY,6o 是 在 给 定 观测 数据 Y 和 当前 的 参数 估计 Co 下 隐 变 量 数据 
Z 的 条 件 概率 分 布 ; 

i M 步 : 求 使 Q(0@,0°) 极 大 化 的 9， 确 定 第 it1 次 迭代 的 参数 的 估 
计 GD 


0 =arg max O(0,0°) (9.10) 
ed 


(4) 重复 第 (2) 步 和 第 (3) 步 ， 直 到 收敛 。 

式 (9.9) 的 函数 Q(6,0°) 是 EM 算法 的 核心 ， 称 为 Q 函 数 (Q 
function ) 。 

定义 9.1(Q 函 数 ) “完全 数据 的 对 数 似 然 函 数 logP(Y，Z| 欠 关于 在 
给 定 观 测 数 据 Y 和 当前 参数 O° 下 对 未 观测 数据 Z 的 条 件 概 率 分 布 P(Z|Y,0 
9 的 期 望 称 为 Q 函 数 ， 即 

QO(0,0")=E,[log P(Y,Z|0)|Y,0"] (9.11) 

下 面 关 于 EM 算法 作 几 点 说 明 : 
人 (1) 参数 的 初 值 可 以 任意 选择 ， 但 需 注 意 EM 算 法 对 初 值 是 
感 的 。 

步骤 (2) ”下 步 求 Q(6,6°)。Q 函 数 式 中 Z 是 未 观测 数据 ，Y 是 观测 
数据 。 注 意 ，Q(@,0%) 的 第 1 个 变 元 表示 要 极 大 化 的 参数 ， 第 2 个 变 元 表 
示 参 数 的 当前 估计 值 。 每 次 迭代 实际 在 求 Q 函 数 及 其 极 大 。 

步骤 (3) M 步 求 Q(0,0°) 的 极 大 化 ， 得 到 CY*， 完 成 一 次 迭代 0 -~ 
0G"*"。 后 面 将 证 明 每 次 迭代 使 似 然 函 数 增 大 或 达到 局 部 极 值 。 











步骤 (4) ”给 出 停止 迄 代 的 条 件 ， 一 般 是 对 较 小 的 正 数 芭 ,EE,， 厂 
满足 
2 二 < 六 或 12(00 ,0°) -0(0°,0°)|k EN 
则 停止 达 代 。 


9.1.2 EM 算法 的 导出 


上 面 叙述 了 EM 算法 。 为 什么 EM 算法 能 近似 实现 对 观测 数据 的 极 大 
似 然 佑 计 呢 ?下 面 通过 近似 求解 观测 数据 的 对 数 似 然 函数 的 极 大 化 问题 
来 导出 EM 算法 ， 由 此 可 以 清楚 地 看 出 EM 算法 的 作用 。 

我 们 面 对 一 个 含有 隐 变 量 的 概率 模型 ， 目 标 是 极 大 化 观测 数据 (不 
完全 数据 ) Y 关 于 参数 8 的 对 数 似 然 函 数 ， 即 极 大 化 


L(0)=1log P(Y|0)= log 2 POY,2 0) 
(9.12) 
-iog| 二 Pr oreia] 


注意 到 这 一 极 大 化 的 主要 困难 是 式 〈9.12) 中 有 未 观测 数据 并 有 人 包含 和 
《或 积分 ) 的 对 数 。 

事实 上 ，EM 算 法 是 通过 迭代 逐步 近似 极 大 化 L( 思 的 。 假 设 在 第 ii 次 
迭代 后 @ 的 估计 值 是 9%。 我 们 希望 新 估计 值 9 能 使 L(9) 增 加 ， 即 L( 多 >L( 
mm， 并 逐步 达到 极 大 值 。 为 此 ， 考 虑 两 者 的 差 : 


L(0)-L(0")= os EPO |2,0)P(Z | 0)]- log P(7|100) 
a 


利用 Jensen 不 等 式 (Jensen inequality) 得 到 其 下 界 : 
P(Y|2,0)P(Z10) 
P(Y|2Z,0") 
P(Y|Z,0)P(Z|0) 
P(Z|Y.0") 
P(Y |Z,0)P(Z 1O) 
P(Z|Y.0")P(Y|O") 


L(0)-L(0")= os Zu |2,0°) 上 log P(Y 16°) 
S 


> > P(Z|Y,0")log -log P(712”) 
Z 


= 2_P(Z|Y,0")log 
Zz 


心 


Te 全 ES P(Y|Z,0)P(Z 10) 
B(OOMNELON) FT PZIY. on) og— SO EO 9.13 
( ( 2, | ) og p71y OOJPU7| OO 00) 


则 
L(0)= B(O.0") (9.14) 
即 函 数 B(CO,Co) 是 L( 欠 的 一 个 下 界 ， 而 且 由 式 〈9.13) 可知 ， 
L(0")= 了 (OO DO) (9.15) 


因此 ， 任 何 可 以 使 B(@,0) 增 大 的 6， 也 可 以 使 L( 久 增 大 。 为 了 使 L( 甸 有 
尽 可 能 大 的 增长 ， 选 择 2o 使 B(O,2o 达 到 极 大 ， 即 
OD = arg max B(0,0") (9.16) 


现在 求 » 的 表达 式 。 省 去 对 8 的 极 大 化 而 言 是 常数 的 项 ， 由 式 
(9.16) 、 式 (9.13) 及 式 (9.10) ， 有 
9% =argmgx| LO") + PP(Z1Y,0") Iog A 


P(ZIE OP | ) 


-argmgx| 二 PZ | 7.giogCPOr1Z.O)P(Z19)| 
9 7 


= wremgx [DPC Y.0")log pO,210)] 


2 


=argmax O(0,0") (9.17) 


式 《9.17) 等 价 于 EM 算法 的 一 次 迭代 ， 即 求 Q 函 数 及 其 极 大 化 。EM 算 
法 是 通过 不 断 求解 下 界 的 极 大 化 逼近 求解 对 数 似 然 函数 极 大 化 的 算法 。 

图 9.1 给 出 EM 算法 的 直观 解释 。 图 中 上 方 曲线 为 L(9)， 下 方 曲 线 为 
B(6,0°)。 由 式 (9.14) ，B(C,6o 为 对 数 似 然 函数 L( 甸 的 下 界 。 由 式 
(9.15) ， 两 个 函数 在 点 8 二 0 处 相等 。 由 式 (9.16) 和 式 〈9.17) ， 
EM 算法 找到 下 一 个 点 8) 使 函数 B(6@,0°) 极 大 化 ， 也 使 函数 Q(6,0°) 极 大 
化 。 这 时 由 于 L( 久 >B(6,6")， 函 数 B(@,) 的 增加 ， 保 证 对 数 似 然 函 数 LL( 
信 在 每 次 迭代 中 也 是 增加 的 。EM 算 法 在 点 CY" 重新 计算 Q 函 数值 ， 进 行 
下 一 次 迭代 。 在 这 个 过 程 中 ， 对 数 似 然 函 数 L( 外 不 断 增 大 。 从 图 可 以 推 
断 出 EM 算法 不 能 保证 找到 全 局 最 优 值 。 








B(O! DA) / 
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图 9.1 EM 算法 的 解释 


9.1.3 EM 算法 在 非 监 督学 习 中 的 应 用 


监督 学 习 是 由 训练 数据 {(x,，y),(%,，y,)…,(Xwy)} 学 习 条 件 概 率 分 
布 P(Y|X) 或 决策 函数 Y= 二 f(X) 作 为 模型 ， 用 于 分 类 、 回 归 、 标 注 等 任 
务 。 这 时 训练 数据 中 的 每 个 样本 点 由 输入 和 输出 对 组 成 。 

有 时 训练 数据 只 有 输入 没有 对 应 的 输出 {(x,,-),(x,)…,(xw-}， 从 这 
样 的 数据 学 习 模 型 称 为 非 监督 学 习 问 题 。EM 算 法 可 以 用 于 生成 模型 的 
非 监 督学 习 。 生 成 模型 由 联合 概率 分 布 P(X,Y) 表 示 ， 可 以 认为 非 监 督学 


I 了. 户 子 


习 训 练 数据 是 联合 概率 分 布 产生 的 数据 。X 为 观测 数据 ，Y 为 未 观测 数 
最 。 











9.2 上 EM 算法 的 收敛 性 


EM 算法 提供 一 种 近似 计算 含有 隐 变 量 概率 模型 的 极 大 似 然 估 计 的 
方法 。EM 算 法 的 最 大 优点 是 简单 性 和 普 适 性 。 我 们 很 自然 地 要 问 : EM 
算法 得 到 的 估计 序列 是 否 收敛 ? 如 果 收 钱 ， 是 否 收敛 到 全 局 最 大 值 或 局 
部 极 大 值 ? 下 面 给 出 关于 EM 算法 收敛 性 的 两 个 定理 。 

定理 9.1 设 P(Y|0) 为 观测 数据 的 似 然 函数 ，0% (i 二 1,2,..….) 为 EM 
算法 得 到 的 参数 估计 序列 ，P(YI@mw Gi 二 1,2,...) 为 对 应 的 似 然 函数 序 
列 ， 则 P(CYICo 是 单调 递增 的 ， 即 

P(Y|0"™)> P(Y|0") (9.18) 











证 明 由 于 
P(Y|0) = P(Y,Z|0) 
P(Z |Y.,0) 
取 对 数 有 
log P(Y|0)=log P(Y,Z|10)—logP(Z|Y,0) 
由 式 (9.11) 
QO(0.0")= > logP(Y.Z10)P(Z|Y.0") 


令 
H(0,0")=Y logP(Z|Y,0)P(Z|Y,0") (9.19) 


到 
于 是 对 数 似 然 函 数 可 以 写成 
log P(Y|0)= 0(0,0")— H(0,0") (9.20) 
在 式 〈9.20) 中 分 别 取 0 为 .8 和 0 ,并 相 减 ， 有 
log P(Y10"")—logP(Y|0") 
=[Q(0"™,0")-O(0",0°)]-[H(O"™,0")- H(0",0")] (9.21) 
为 证 式 (9.18) ， 只 需 证 式 (9.21) 右 端 是 非 负 的 。 式 (9.21) 厂 
端的 第 1 项 ， 由 于 Co 使 Q(C,Co) 达 到 极 大 ， 所 以 有 
CO ,00)-C(00 0)=0 (9.22) 
其 第 2 项 ， 由 式 〈9.19) 可 得 : 
H(O'* .07)— H(0",0") 


(i+1) 
| oe pe 
7 P(Z172 ) 


P(Z1 了 雁 人) 
去 ] 人 
oa [5 P(Z|Y,00) 1) 


-los (FP(z17,.0"") |=0 (9.23) 


这 里 的 不 等 号 由 Jensen 不 等 式 得 到 。 

由 式 (9.22〉 和 式 〈9.23) 即 知 式 (9.21) 右 端 是 非 负 的 。 

定理 9.2” 设 0L( 久 =logP(YIg 为 观测 数据 的 对 数 似 然 函数 ，Coki= 
12,..) 为 EM 算法 得 到 的 参数 估计 序列 ，L(Cmti 三 12,….) 为 对 应 的 对 数 似 


然 函 数 序列 。 

(1) 如 果 P(Y|6) 有 上 界 ， 则 L(6") 二 logP(Y|6@) 收 敛 到 某 一 值 LL"; 

(2) 在 函数 Q(O.O 与 L(J 满 足 一 定 条 件 下 ， 由 EM 算法 得 到 的 参数 
估计 序列 镶 的 收敛 值 C 是 L(0) 的 稳定 点 。 
| 证 明 1) 由 L( 信 ==logP(Y|@") 的 单调 性 及 P(Y|O) 的 有 界 性 立即 得 
|。 

(2) 证 明 从 略 ， 参 阅 文 献 [6] 。 

定理 9.2 关 于 函数 Q(2,20 与 L( 久 的 条 件 在 大 多 数 情况 下 都 是 满足 
的 。EM 算 法 的 收敛 性 包含 关于 对 数 似 然 函 数 序列 L(O) 的 收敛 性 和 关于 
参数 估计 序列 "的 收敛 性 两 层 意思 ， 前 者 并 不 缠 涵 后 者 。 此 外 ， 定 理 只 
能 保证 参数 估计 序列 收敛 到 对 数 似 然 函数 序列 的 稳定 点 ， 不 能 保证 收 全 
到 极 大 值 点 。 所 以 在 应 用 中 ， 初 值 的 选择 变 得 非常 重要 ， 常 用 的 办 法 是 
选取 几 个 不 同 的 初 值 进行 迭代 ， 然 后 对 得 到 的 各 个 估计 值 加 以 比较 ， 从 
中 选择 最 好 的 。 


9.3 EM 算法 在 高 斯 混合 模型 学 习 中 的 应 
用 


EM 算法 的 一 个 重要 应 用 是 高 斯 混合 模型 的 参数 估计 。 高 斯 混合 模 
型 应 用 广泛 ， 在 许多 情况 下 ，EM 算 法 是 学 习 高 斯 混合 模型 〈Gaussian 
misture model) 的 有 效 方法 。 

9.3.1 高 斯 混合 模型 


(高 斯 混合 模型 ) ”高 斯 混合 模型 是 指 具 有 如 下 形式 的 概 
率 分 布 模型 : 









































P(y|0)= > axgy|O) (9.24) 
k= 
=] 个 Y ye 2 
其 中 ，a 是 系数 ，a>0， 各 “”!，@(yI9) 是 高 斯 分 布 密度 ，0. 二 (A,09)， 
] (一 人 ) 
(es exp| 一 一 一 一 一 (9.25) 
8O V2n0, | 20r 


称 为 第 k 个 分 模型 。 





一 般 混 合 模型 可 以 由 任意 概率 分 布 密度 代 背 式 〈9.25) 中 的 高 斯 分 
布 密度 ， 我 们 只 介绍 最 常用 的 高 斯 混合 模型 。 


9.3.2 ”高 斯 混合 模型 参数 估计 的 EM 算法 
假设 观测 数据 y,y。…yw 由 高 斯 混合 模型 生成 
P(y10)= Yay10,) (9.26) 
其 中 ，0 二 (awa,...a;0,0,....0)。 我 们 用 EM 算法 估计 高 斯 混合 模型 的 全 
数 0， 
1， 明 确 隐 变 量 ， 写 出 完全 数据 的 对 数 似 然 函数 


可 以 设想 观测 数据 y，j 二 1,2,.…,N， 是 这 样 产 生 的 :首先 依 概 率 a 选 
择 第 k 个 高 斯 分 布 分 模型 @(yIGk)， 然 后 依 第 k 个 分 模型 的 概率 分 布 O(yI9 
kj 生成 观测 数据 y。 这 时 观测 数据 y，j 二 12,.…,N， 是 已 知 的 ， 反 映 观测 
数据 y 来 自 第 k 个 分 模型 的 数据 是 未 知 的 ，k 二 1,2,.…,K， 以 隐 变 量 X. 表 
示 ， 其 定义 如 下 : 
/1。 第 /个 观测 来 自 第 个 分 模型 
“大 “|10， 否则 











J 生 国 5 (9.27) 
是 0-1 随 机 变量 。 
有 了 观测 数据 y 及 未 观测 数据 /_. ， 那 么 完全 数据 是 
(ra ， J= la"sN 
于 是 ， 可 以 写 出 完全 数据 的 似 然 函数 : 





~N 
PO2s719)= P07, ne | 


=[11I[e.¢0, 16 中 





-TIceTI[wo， 19, 中 
大 =] | 
] = 
= 中 并 | 7 - ] 
N 天 
by 
式 中 ， 让 k=l 


那么 ， 完 全 数据 的 对 数 似 然 函 数 为 
log P(y,710)= > log w, + 了 局 EC logo, 一 0 一 / ?| 


2. EM 算法 的 E 步 : 确定 Q 函 数 


QO(0,0")= Ellog P(y,y|0)|y,0"] 


大 N ] 1 
z 记 mm log w 2 ,Yn oe( 霹 ]-eo “2 一 /人 让 
= > (Ey )logo, + 六 (En) log 2 -logo, i -44) 
| V2n pi 


不 =] j=| 





(9.28) 
这 里 需要 计算 EU |y,0)， 记 为 7。 


Fa 二 E(yi y»,0) Plyi =1|y,0) 
_ y= bl 


By = | 
mit [ri =1,0)P(y; =1|0) 
Bn Gy, 0) 


是 在 当 前 模型 参数 下 第 j 个 观测 数据 来 自 第 k 个 分 模型 的 概率 ， 称 为 分 
模型 k 对 观测 数据 y 的 响 应 度 。 


将 六 一 EN 及 ” 这 代入 式 〈9.28) 即 得 


I 1 
2(0,0"")= 》71 logaw + log —logo,——(y,—14) | (9.29) 
Q(0,0")= Dn loga, | 元 | ga 一 (7 一 内 


< 


=1,2,…,N; 上 =]12…… 天 








3. 确定 EM 算 法 的 M 步 
人 8 的 极 大 值 ， 即 求 新 一 轮 迭 代 的 模型 
0"™ = arg max C(O， 6") 
用 应 ， 守 及 人 ，k 一 1,2,.….,K， 表 示 0G%… 的 各 参数 。 求 六 ， 吕 只 be 


(9.29) 分 别 对 人 L， 中 来 俏 导 数 并 令 其 为 0， 即 可 得 到 ， 求 趾 在 
条 件 下 求 偏 导数 并 令 其 为 0 得 到 的 。 结 果 如 下 ; 





应 = 过 ， k=],2,-…,K (9.30) 


Vv 
六 Ftp 3 Hr ) 
j=| 

N 4 


多 = k=1,2,…,K (9.31) 
> 
j=} 
y 
Vi 
B= EF=12%,K (9.32) 
N NWN 


重复 以 上 计算 ， 下 到 对 数 似 然 函 数值 不 再 有 明显 的 变化 为 止 。 
现 将 估计 高 斯 混合 模型 参数 的 EM 算法 总 结 如 下 : 

算法 9.2《〈 高 斯 混合 模型 参数 估计 的 EM 算法 ) 

输入 : 观测 数据 y,y,.….,y,， 高 斯 混合 模型 ; 

输出 : 高 斯 混合 模型 参数 。 

(1) 取 参 数 的 初始 值 开 始 迭 代 

(2) E 步 : 依据 当前 模型 参数 ， 计 算 分 模型 k 对 观测 数据 y 的 啊 应 














度 
二 Op(y, | 0. ) 


六 “性 
>》 ob) 109,) 
不 =] 
(3) M 步 : 计算 新 一 轮 迭 代 的 模型 参数 


和 





N 
人 (y, 一 他 于 
=| 
td < 


= lk 
(4) 重复 第 (2) 步 和 第 (3) 步 ， 直 到 收敛 。 


9.4 EM 算法 的 推广 


EM 算法 还 可 以 解释 为 F 函 数 (F function) 的 极 大 - 极 大 算法 

(maximizationmaximization algorithm ) ， 基 于 这 个 解释 有 若干 变形 与 推 

广 ， 如 广义 期 望 极 大 〈generalized expectation maximization，GEM) 算 
法 。 下 面 了 予以 介绍 。 


9.4.1 下 函 数 的 极 大 - 极 大 算法 


首先 引进 F 函 数 并 讨论 其 性 质 。 _ 
定义 9.3 CE 函数 ) ”假设 隐 变 量 数 据 Z 的 概率 分 布 为 坊 Z)， 定 义 分 
布 P 与 参数 0 的 函数 F(P,0) 如 下 : 
F(P,0)= Ellog P(Y,Z10)]+ H(P) (9.33) 


称 为 F 函 数 。 式 中 H(P) 二 -EALogP(Z) 是 分 布 AZ) 的 。 
在 定义 9.3 中 ， 通 常 假设 P(Y，ZI0) 是 8 的 连续 函数 ， 因 而 F( 记 是 
和 的 连续 函数 。 函 数 F(P, 外 还 有 以 下 重要 性 质 : _ 
a 对 于 固定 的 9， 存 在 唯一 的 分 布 8 极 大 化 F(P,0)， 这 时 由 
下 式 给 出 : 





态 (ZJREB(Z | 成 四 (9.34) 
并 且 巨 随 9 连 续 变化 。 | 
证 明 ”对 于 固定 的 9， 可 以 求 得 使 F( 训 达到 极 大 的 分 布 驴 Z)。 为 
此 ， 引 进 拉 格 明日 乘 子 4， 拉 格 明 日 函数 为 
1- >》 P(2) | 
Z 


L=E;logP(Y,Z|0)-— E; logP(Z)+4 





将 其 对 PB 求 偏 导数 : 





oL 
=log P(Y,Z|0)-log P(Z)-1-7 
aE(2) ogP(Y,Z10)-logP(Z) 
令 偏 导数 等 于 0， 得 出 
A4=logP(Y,Z|0)-logP,(Z)-1 
由 此 推出 所 Z) 与 P(Y，Z| 久 成 比例 
PU Z|) = 
已 (Z) 
va 
再 从 约束 条 条 件 信 得 式 (9.34) 。 
由 假设 P(Y， Z| 办 是 9 的 连续 了 数 ， 得 到 互 是 @ 的 连续 函数 。 
引 理 9.2 ”车 如 (Z) 二 P(Z|Y, 人 ， 则 
F(P,0)=logP(Y|0) (9.36) 
证 明 作 为 习题 ， 留 给 读者 。 
由 以 上 引 理 ， 可 以 得 到 关于 EM 算法 用 F 函 数 的 极 大 - 极 大 算法 的 解 
释 。 
定理 9.3 ” 设 0L( 久 =logP(YIO@ 为 观测 数据 的 对 数 似 然 函数 ， 如 ，i= 
3 为 EM 算法 得 到 的 参数 估计 序列 ， 函 数 F( 记 外 由 式 (9.33) 定 
义 。 如 果 F(P, 外 在 Bx 和信 有 局 部 极 大 值 ， 那 么 L(0) 也 在 人 有 局 部 极 大 
值 。 类 似 地 ， 如 果 F(P, 外 在 Px 和 人 达到 全 局 最 大 值 ， 那 么 L( 外 也 在 分 达 
到 全 局 最 大 值 。 
证 明 ”由 引 理 9.1 和 引 理 9.2 可 知 ，L( 久 ==logP(Y| 人 二 F(4s,0) 对 任意 0 
成 立 。 特 别 地 ， 对 于 使 F( 训 0 达到 极 大 的 参数 PO9， 有 
L(0°)=F(P.,0°)=F(P',0") (9.37) 
为 了 证 明 弛 是 L( 甸 的 极 大 点 ， 需 要 证 明 不 存在 接近 作 的 点 信 ， 使 L(O 
“)>L()。 假 如 存在 这 样 的 点 CO*， 那 么 应 有 F(P*,0O*)>F(P,0O)， 这 里 产 二 





“。 但 因 名 是 随 0 连续 变化 的 ， 产 应 接近 疡 ， 这 与 疡 各 是 F(B,0O) 的 局 部 
极 大 点 的 假设 矛盾 。 
类 似 可 以 证 明 关 于 全 局 最 大 值 的 结论 。 
定理 9.4 EM 算法 的 一 次 碗 代 可 由 F 函 数 的 极 大 - 极 大 算法 实现 。 
设 久 为 第 i 次 迭代 参数 9 的 估计 ，PGi) 为 第 i 次 迭代 函数 P 的 估计 。 在 
第 计 1 次 迭代 的 两 步 为 
(1) 对 固定 的 如 ， 求 严 " 使 FLB,.Oo 极 大 化 ; 
(2) 对 固定 的 Pr?， 求 "使 F(Pr",0) 极 大 化 。 
证 明 (1)〉 由 引 理 9.1， 对 于 固定 的 后 ， 
PY (2)=P,(2)=P(Z|Y,0°) 
使 F(B,0") 极 大 化 。 此 时 ， 
F(PHY 0)=Es llogP(Y,Z|O]+ H(P™) 


= DlogP(Y,Z10)P(Z1Y,0°)+ H(P™") 


Z 
由 Q(@,0") 的 定义 式 (9.11) 有 
ROP OO(0,00 EH) 
(2) 固定 疡 "， 求 om 使 Fr,O) 极 大 化 。 得 到 
CC nrg maxF (PO 0) =arg max O(0.0") 


通过 以 上 两 步 完成 了 EM 算法 的 一 次 达 代 。 由 此 可 知 ， 由 EM 算法 与 F 通 
数 的 极 大 - 极 大 算法 得 到 的 参数 估计 序列 Do，i 一 12,….， 是 一 致 的 。 
这 样 ， 就 有 EM 算法 的 推广 。 


9.4.2 ”GEM 算 法 


算法 9.3 (GEM 算 法 1) 

输入 : 观测 数据 ，F 函 数 ; 

输出 : 模型 参数 。 

(1) 初始 化 参数 9G%， 开 始 迭 代 

(2) 第 i+1 次 迭代 ， 第 1 步 : 记 久 为 参数 8 的 估计 值 ， 关 为 函数 PP 的 
估计 。 求 ?使 P 极 大 化 F(P,O%) 

(3) 第 2 步 : 求 Co 使 FLEe,O 极 大 化 

(4) 重复 (2) 和 (3) ， 直 到 收敛 。 

在 GEM 算 法 1 中 ， 有 时 求 Q(@,0) 的 极 大 化 是 很 困难 的 。 下 面 介 绍 的 
GEM 算 法 2 和 GEM 算 法 3 并 不 是 直接 求 * 使 Q(6,0%) 达 到 极 大 的 9， 而 是 





找 和 个 Cup 使 得 Q(oo,Oo >Q(O,0°) 5 
算法 9.4 (GEM 算 法 2) 
输入 : 观测 数据 ，Q 函 数 ; 
输出 : 模型 参数 。 
(1) 初始 化 参数 G%， 开 始 达 代 
(2) 第 it1 次 迭代 ， 第 1 步 : 记 久 为 参数 8 的 估计 值 ， 计 算 
OQ(0,0°)=E,[logP(Y,Z|0)|Y,0"] 


二 .Pp(2 |Y,0" )log P(Y,Z |0) 


. 
(3) 第 2 步 : 求人 使 
OQ(0"™ ,0°)> 0O(0°,0°) 

(4) 重复 (2) 和 (3) ， 直 到 收敛 。 

当 参 数 @ 的 维 数 为 d (dz>2) 时 ， 可 采用 一 种 特殊 的 GEM 算 法 ， 它 将 
EM 算法 的 M 步 分 解 为 4 次 条 件 极 大 化 ， 每 次 只 改变 参数 向 量 的 一 个 分 
量 ， 其 余 分 量 不 改变 。 

算法 9.5 ‘(GEM 算法 3) 

输入 : 观测 数据 ，Q 函 数 ; 

输出 : 模型 参数 。 ， 

(1) 初始 化 参数 po 一 (人 .82 外， 开始 迭代 

(2) 第 i+1 次 迭代 ， 第 1 步 : 记 Bo 一 (8 ,27 .9 ) 为 参数 0=(0,0， 
...@) 的 估计 值 ， 计 算 

O00)=E, [logP(Y.Z | LY.) 


= >_P(Z|y,0")logP(Y,2Z10) 
. 


(3) 第 2 步 : 进行 d 次 条 件 极 大 化 : 
首先 ， 在 免 ，..., 保持 不 变 的 条 件 下 求 使 Q(06,0") 达 到 极 大 的 ”， 
然后 ， 在 8 二”，0 = 二，j 二 3,4,.…,k 的 条 件 下 求 使 Q(6,0") 达 到 极 
大 的 多 ” 
如 此 继续 ， 经 过 d 次 条 件 极 大 化 ， 得 到 gm 一 (入 ”多 .8 站) 使 得 
CO 00)> O00°) 
(4) 重复 (2) 和 (3) ， 直 到 收敛 。 


本 章 概要 


1. EM 算法 是 含有 隐 变 量 的 概率 模型 极 大 似 然 估计 或 极 大 后 验 概率 
估计 的 迭代 算法 。 含 有 隐 和 变量 的 概率 模型 的 数据 表示 为 P(Y，ZI6)。 这 
里 ，Y 是 观测 变量 的 数据 ，Z 是 隐 变 量 的 数据 ，0 是 模型 参数 。EM 算 法 
通过 和 迭代 求解 观测 数据 的 对 数 似 然 函数 L(0)==logP(Y|) 的 极 大 化 ， 实 现 
极 大 似 然 佑 计 。 每 次 迭代 包括 两 步 : E 步 ， 求 期 望 ， 即 求 1ogP(Y，ZIO) 
关于 P(Z|Y,0") 的 期 望 : 

QO(0,0")= > logP(Y,Z|0)P(Z|Y,0") 


称 为 Q 函 数 ， 这 里 go 是 参数 的 现 估计 值 ，M 步 ， 求 极 大 ， 即 极 大 化 Q 函 
数 得 到 参数 的 新 估计 值 : 
OO"™ = arg max CO(0.0”) 


在 构建 具体 的 EM 算法 时 ， 重 要 的 是 定义 Q 函 数 。 每 次 迭代 中 ，EM 
算法 通过 极 大 化 Q 函 数 来 增 大 对 数 似 然 函 数 L(O)。 

2. EM 算法 在 每 次 迭代 后 均 提 高 观测 数据 的 似 然 函 数值 ， 即 

P(Y|0"")= P(Y|0") 
在 一 般 条 件 下 EM 算法 是 收敛 的 ， 但 不 能 保证 收敛 到 全 局 最 优 。 

3. EM 算法 应 用 极其 广泛 ， 主 要 应 用 于 含有 隐 变 量 的 概率 模型 的 学 
习 。 高 斯 混合 模型 的 参数 估计 是 EM 算法 的 一 个 重要 应 用 ， 下 一 章 将 要 
介绍 的 隐 马 尔 可 夫 模 型 的 非 监 督学 习 也 是 EM 算法 的 一 个 重要 应 用 。 

4. EM 算法 还 可 以 解释 为 F 函 数 的 极 大 - 极 大 算法 。EM 算 法 有 许多 
变形 ， 如 GEM 算 法 。GEM 和 守 法 的 特点 是 每 次 迭代 增加 F 函 数值 (并 不 一 
定 是 极 大 化 F 函 数 ) ， 从 而 增加 似 然 函数 值 。 


继续 阅读 


EM 算法 由 Dempster 等 人 总 结 提出 "。 类 似 的 算法 之 前 已 被 提出 ， 如 
Baum 与 Welch 算 法 ， 但 是 都 没有 EM 算法 那么 广泛 。EM 算 法 的 介绍 可 参 
见 文献 [2 一 4]。EM 算 法 收敛 性 定理 的 有 关 证 明 见 文献 [5]。GEM 是 由 
Neal 与 Hinton 提 出 的 %。 


























习题 


9.1 如 例 9.1 的 三 硬币 模型 。 假 设 观测 数据 不 变 ， 试 选择 不 同 的 初 
值 ， 例 如 ， 克 % 二 0.46，p” 二 0.55，g® 二 0.67， 求 模型 参数 6 二 (到 ,p,q) 的 
极 大 似 然 估计 。 

9.2 ”证明 引 理 9.2。 

9.3 已 知 观测 数据 

-67，-48，6，8，14，16，23，24，28，29，41，49，56，60，75 

试 估计 两 个 分 量 的 高 斯 混合 模型 的 5 个 参数 。 

9.4 EM 算法 可 以 用 到 朴素 贝 叶 斯 法 的 非 监 督学 习 。 试 写 出 其 算 
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第 10 草 ” 隐 马 尔 可 天 模型 


隐 马 尔 可 夫 模 型 (hidden Markov model,HMM) 是 可 用 于 标注 问题 
的 统计 学 习 模型 ， 描 述 由 隐藏 的 马尔 可 夫 链 随机 生成 观测 序列 的 过 程 ， 
属于 生成 模型 。 本 章 首 先 介绍 隐 马 尔 可 夫 模 型 的 基本 概念 ， 然 后 分 别 令 
述 隐 马尔 可 夫 模 型 的 概率 计算 算法 、 学 习 算法 以 及 预测 算法 。 隐 马尔 可 
人 自然 语言 处 理 、 生 物 信 息 、 模 式 识 别 等 领域 有 着 广 
泛 的 应 用 。 


10.1 隐 乌 尔 可 夫 模 型 的 基本 概念 


10.1.1 隐 马 尔 可 夫 模 型 的 定义 


定义 10.1《〈 隐 马尔 可 夫 模 型 ) ” 隐 马 尔 可 夫 模 型 是 关于 时 序 的 概率 
模型 ， 描 述 由 一 个 隐藏 的 马尔 可 夫 链 随机 生成 不 可 观测 的 状态 随机 序 
列 ， 再 由 各 个 状态 生成 一 个 观测 而 产生 观测 随机 序列 的 过 程 。 隐 藏 的 马 
尔 可 夫 链 随机 生成 的 状态 的 序列 ， 称 为 状态 序列 (state sequence) ; 
个 状态 生成 一 个 观测 ， 而 由 此 产生 的 观测 的 随机 序列 ， 称 为 观测 序列 
Cobservation sequence) 。 序 列 的 每 一 个 位 置 又 可 以 看 作 是 一 个 时 刻 。 
隐 马 尔 可 夫 模 型 由 初始 概率 分 布 、 状 态 转移 概率 分 布 以 及 观测 概率 
分 布 确定 。 隐 马尔 可 夫 模 型 的 形式 定义 如 下 : 
设 Q 是 所 有 可 能 的 状态 的 集合 ，V 是 所 有 可 能 的 观测 的 集合 。 
QO={4,9 ,Gy » VV =, Vt 
其 中 ，N 是 可 能 的 状态 数 ，M 是 可 能 的 观测 数 。 
I 是 长 度 为 T 的 状态 序列 ，O 是 对 应 的 观测 序列 。 
= 


A 是 状态 转移 概率 矩阵 : 
有 A=| 各 |， (10.1) 











其 中 ， 
a, =P(i, =g|i=g), 1i=12… Ni j=1,2,,N (10.2) 


是 在 时 刻 t 处 于 状态 q 的 条 件 下 在 时 刻 tt1 转 移 到 状态 q 的 概率 。 
B 是 观测 概率 和 矩阵: 
B=|b,(A|,, (10.3) 


其 中 ， 
b(k)=P(o, = |i=g), k=1,2,,M; j=1,2,.…,N (10.4) 


是 在 时 刻 t 处 于 状态 q 的 条 件 下 生成 观测 Vv. 的 概率 。 
外 是 初始 状态 概率 问 量 : 
t=(x) (10.5) 
其 中 ， 
A, =P(i =g), i=1,2,,N (10.6) 
是 时 刻 t 王 1 处 于 状态 q 的 概率 。 


隐 马 尔 可 夫 模 型 由 初始 状态 概率 同 量 、 状 态 转 移 概 率 矩 阵 A 和 观 
测 概 率 和 矩阵 B 决 定 。 到 和 A 决定 状态 序列 ，B 决 定 观 测序 列 。 因 此 ， 隐 马 
尔 可 夫 模 型 4 可 以 用 三 元 符号 表示 ， 即 

414.=(A,B,x) (10.7) 

A,B, 抑 称 为 隐 马 尔 可 夫 模 型 的 三 要 素 。 

状态 转移 概率 矩阵 A 与 初始 状态 概率 癌 量 抑 确定 了 隐藏 的 马尔 可 夫 
链 ， 生 成 不 可 观测 的 状态 序列 。 观 测 和 概率 卸 阵 B 确 定 了 如 何 从 状态 生成 
观测 ， 与 状态 序列 综合 确定 了 如 何 产生 观测 序列 。 

从 定义 可 知 ， 隐 马尔 可 夫 模 型 作 了 两 个 基本 假设 : 

(1) 齐 次 马尔 可 夫 性 假设 ， 即 假设 隐藏 的 马尔 可 夫 链 在 任意 时 刻 t 
的 状态 只 依赖 于 其 前 一 时 刻 的 状态 ， 与 其 他 时 刻 的 状态 及 观测 无 关 ， 也 
与 时 刻 t 无 关 。 

PUL [TO a to) = Pi) P=o"T (10.8) 

(2) 观测 独立 性 假设 ， 即 假设 任意 时 刻 的 观测 只 依赖 于 该 时 刻 的 

马尔 可 夫 链 的 状态 ， 与 其 他 观测 及 状态 无 关 。 
Plo, |ir,Orsirs Or sn Oil 0 "bh 01) = Plo, |i) (10.9) 

隐 马 尔 可 夫 模 型 可 以 用 于 标注 ， 这 时 状态 对 应 着 标记 。 标 注 问 题 是 
给 定 观测 的 序列 预测 其 对 应 的 标记 序列 。 可 以 假设 标注 问题 的 数据 是 由 
隐 马 尔 可 夫 模 型 生成 的 。 这 样 我 们 可 以 利用 隐 马 尔 可 夫 模 型 的 学 习 与 预 
测算 法 进行 标注 。 

下 面 看 一 个 隐 马 尔 可 夫 模 型 的 例子 。 


























例 10.1〈 盒 子 和 球 模型 ) 假设 有 4 个 盒子， 每 个 盒子 里 都 装 有 红 
白 两 种 颜色 的 球 ， 盒 子 里 的 红 白 球 数 由 表 10.1 列 出 。 
表 10.1 各 盒子 的 红 日 球 数 
仿 子 1 2 3 4 
红 球 数 5 3 6 8 
白 球 数 5 7 4 


按照 下 面 的 方法 抽 球 ， 产 生 一 个 球 的 颜色 的 观测 序列 : 开始， 从 4 
个 盒子 里 以 等 概率 随机 选取 1 个 盒子 ， 从 这 个 盒子 里 随机 抽出 1 个 球 ， 记 
录 其 颜色 后 ， 放 回 : 然后 ， 从 当前 盒子 随机 转移 到 下 一 个 盒子 ， 规 则 
是 : 如 果 当 前 盒子 是 盒子 1， 那 么 下 一 盒子 一 定 是 盒子 2， 如 果 当 前 是 盒 
子 2 或 3， 那 么 分 别 以 概率 0.4 和 0.6 转 移 到 左边 或 右边 的 盒子 ， 如 果 当 前 
是 盒子 4， 那 么 各 以 0.5 的 概率 停留 在 盒子 4 或 转移 到 盒子 3;， 确定 转移 的 
盒子 后 ， 再 从 这 个 盒子 里 随机 抽出 1 个 球 ， 记 录 其 颜色 ， 放 回 :， 如 此 下 
去 ， 重 复 进 行 5 次 ， 得 到 一 个 球 的 颜色 的 观测 序列 : 

0O 二 1 入 ,入 自 ; 卓 ,入 
在 这 个 过 程 中 ， 观 察 者 只 能 观测 到 球 的 颜色 的 序列 ， 观 测 不 到 球 是 从 哪 
个 盒子 取出 的 ， 即 观测 不 到 盒子 的 序列 。 

在 这 个 例子 中 有 两 个 随机 序列 ， 一 个 是 盒子 的 序列 〈 状 态 序 列 ) ， 
一 个 是 球 的 颜色 的 观测 序列 (观测 序列 ) 。 前 者 是 隐藏 的 ， 只 有 后 者 是 
可 观测 的 。 这 是 一 个 隐 马 尔 可 夫 模 型 的 例子 ， 根 据 所 给 条 件 ， 可 以 明确 
状态 集合 、 观 测 集合 、 序 列 长 度 以 及 模型 的 三 要 素 。 

盒子 对 应 状态 ， 状 态 的 集合 是 

Q 一 { 盒 子 1, 盒 子 2, 盒 子 3, 盒 子 41]，N=4 

球 的 颜色 对 应 观测 。 观 测 的 集合 是 

V 王 { 红 ,日 }，M 王 2 
状态 序列 和 观测 序列 长 度 T==5。 


























初始 概率 分 布 为 
T=(0.25,0.25,0.25,0.25) 
状态 转移 概率 分 布 为 
9 有 四 
04 0 06 0 
过 过 


0 04 0 0.6 
0 有 0 WO 
观测 概率 分 布 为 


(3: 

UE 7 
B= 

0.6 0.4 

0.8 0.2 


10.1.2 ”观测 序列 的 生成 过 程 


根据 隐 马 尔 可 夫 模 型 定义 ， 可 以 将 一 个 长 度 为 T 的 观测 序列 O= 
(0,，0,.….,0,) 的 生成 过 程 描述 如 下 : 

算法 10.1( 观 测序 列 的 生成 ) 

输入 : 隐 马 尔 可 夫 模 型 4 二 (A，B, 让 )， 观 测序 列 长 度 T; 

输出 : 观测 序列 0==(0,，0,,.….,0,)。 

(1) 按照 初始 状态 分 布 丈 产生 状态 i 

(2) 令 t=1 

(3) 按照 状态 i 的 观测 概率 分 布 bt(k) 生 成 o 


> 、 、 5 ce 、 
(4) 按照 状态 i 的 状态 转移 概率 分 布 { za 产生 状态 i ，i 三 1,2， 
.oN 
(5) 令 t 二 tt+1; 如 果 t<T， 转 步 (3) ; 否则 ， 终 止 


10.1.3 ” 隐 马 尔 可 夫 模 型 的 3 个 基本 问题 


隐 马 尔 可 夫 模 型 有 3 个 基本 问题 : 

(1) 概率 计算 问题 。 给 定 模型 4 二 (A，B, 克 ) 和 观测 序列 0 二 (0,，， 
0,.….,0,)， 计 算 在 模型 和 4 下 观测 序列 O 出 现 的 概率 P(O|4)。 

(2) 学 习 问 题 。 已 知 观 测序 列 O0 二 (0,，o0,,.….,0,)， 估 计 模 型 4 二 
(A，B, 让 ) 参 数 ， 使 得 在 该 模型 下 观测 序列 概率 P(O|4) 最 大 。 即 用 极 大 似 
然 估计 的 方法 估计 参数 。 

(3) 预测 问题 ， 也 称 为 解码 〈decoding) 问题 。 已 知 模型 4 一 (A， 
B, 克 ) 和 观测 序列 0 二 (0,，0,,….,0,)， 求 对 给 定 观 测序 列 条 件 概 率 P(I|O) 最 
大 的 状态 序列 I 二 Gi，i,,.….,i)。 即 给 定 观 测序 列 ， 求 最 有 可 能 的 对 应 的 状 
态 序 列 。 

下 面 各 节 将 逐一 介绍 这 些 基本 问题 的 解法 。 














10.2 ”概率 计算 算法 


本 节 介 绍 计算 观测 序列 概率 P(O|) 的 前 问 (forward) 与 后 同 
(backward) 算法 。 先 介绍 概念 上 可 行 但 计算 上 不 可 行 的 直接 计算 法 。 


10.2.1 直接 计算 法 


给 定 模型 4 二 (A，B, 让 ) 和 观测 序列 0 二 (0,，o0,,.….,0,)， 计 算 观 测序 列 
O 出 现 的 概率 P(Ol4)。 最 直接 的 方法 是 按 概 率 公 式 直接 计算 。 通 过 列举 
所 有 可 能 的 长 度 为 T? 的 状态 序列 1 二 (i,，i.…,i,))， 求 各 个 状态 序列 与 观测 
序列 0 二 (0o,，0,,.….,0,) 的 联合 概率 P(O，I|%)， 然 后 对 所 有 可 能 的 状态 序列 
求 和 ， 得 到 P(Ol4)。 

状态 序列 I 二 G，i,,.…,i) 的 概率 是 


P(IT|4)= Ra, a "ai, (10.10) 


对 固定 的 状态 序列 I 二 GG，i,,..,,i))， 观 测序 列 O 二 (0,，o0,,.….,0,) 的 概率 
是 P(O|LM)， 
P(O|1,4)=%b, (0)b, (0,)…b, (07) (10.11) 
O 和 I 同时 出 现 的 联合 概率 为 
P(O,7|4)=P(O|1,1)P(T|A) 
= A b; (01)a;; b, (0,)'**a, ib, (07) (10.12) 


Wz 产 -1 


然后 ， 对 所 有 可 能 的 状态 序列 I 求 和 ， 得 到 观测 序列 O 的 概率 P(OI4 
印 








P(O0|N)= > P(O|1,N)P(IID) 


= 2 Tb 01) b, (02)°** a bs, (Or) (10.13) 
但 是 ， 利 用 公式 (10.13) 计算 量 很 大 ， 是 O(TN") 阶 的 ， 这 种 算法 
“可行 。 
下 面 介 绍 计算 观测 序列 概率 P(Ol 和 的 有 效 算法 : 前 向 -后 向 算法 


(forwardbackward algorithm ) 。 


10.2.2 ”前 向 算法 





首先 定义 前 问 概 率 。 

定义 10.2〈 前 疝 概 京 ) ”给 定 隐 马 尔 可 夫 模 型 4， 定 义 到 时 刻 t 部 分 
观测 序列 为 0,0,….,0. 且 状态 为 q 的 概率 为 前 回 概 紊 ， 记 作 

Q(i)=P(0,0,,…,0,,i =qg, |41) (10.14) 

可 以 递 推 地 求 得 前 癌 概 率 aOD) 及 观测 序列 概率 P(Ol4)。 

算法 10.2 观 测序 列 概率 的 前 疝 算法 ) 

输入 : 隐 马 尔 可 夫 模 型 4， 观 测序 列 O; 

输出 : 观测 序列 概率 P(O|4)。 








(1) 初 值 
a)=xb(0), i=1,2,…,N (10.15) 
(2) 递 推 对 t==1,2,...， TT 
只 
0 -| Sa, pe i=1,2,…,N (10.16) 
j= 
(3) 终止 
N 
P(O|4)= >_a; (0) (10.17) a 
=| 





前 向 算法 ， 步 骤 〈1) 初始 化 前 同 概 紊 ， 是 初始 时 刻 的 状态 i 二 gq 和 
观测 o 的 联合 概率 。 步 骤 (2) 是 前 同 概 率 的 北 推 公式 ， 计 算 到 时 刻 t+1 
部 分 观测 序列 为 o,o,...,0，o. 且 在 时 刻 t+1 处 于 状态 q 的 前 向 概 率 ， 如 图 
10.1 所 示 。 在 式 〈10.16) 的 方 括 弧 里 ， 既 然 at0j) 是 到 时 刻 t 观 测 到 o.,o,， 
..30 并 在 时 刻 t 处 于 状态 q 的 前 向 概率 ， 那 么 乘积 a0)a, 就 是 到 时 刻 { 观 测 到 
0.0,...,0 并 在 时 刻 t 处 于 状态 g 而 在 时 刻 t+1 到 达 状 态 q 的 联合 概率 。 对 这 
个 乘积 在 时 刻 t 的 所 有 可 能 的 N 个 状态 q 求 和 ， 其 结果 就 是 到 时 刻 t 观 测 为 
0,0,..;0 并 在 时 刻 t+1 处 于 状态 q 的 联合 概率 。 方 括 弧 里 的 值 与 观测 概率 
bo ) 的 乘积 恰好 是 到 时 刻 tt1 观 测 到 oo, .0，o 并 在 时 刻 tr1 处 于 状态 
qd 的 前 向 概率 a_(D。 步 又 (3) 给 出 P(O|4) 的 计算 公式 。 因 为 

or( 革 = P(0,02 ,07,is =q, | 力 








所 以 
P(O|ND)=Y ord) 


i=] 


di 





[十 ] 
cr 人 (让 QD) 
图 10.1 前 向 概率 的 递 推 公式 


如 图 10.2 所 示 ， 前 向 算法 实际 是 基于 “状态 序列 的 路 径 结 构 ” 递 推 计 
算 P(OI4) 的 算法 。 前 向 算法 高 效 的 关键 是 其 局 部 计算 前 向 概率 ， 然 后 利 
用 路 径 结 构 将 前 向 概率 “ 递 推 ?到 全 局 ， 得 到 P(Ol4)。 有 具体 地 ， 在 时 刻 t 王 
1， 计 算 a(@) 的 N 个 值 G 二 1,2,.….,N); 在 各 个 时 刻 t 王 12….I-1， 计 算 a (i) 
的 N 个 值 G 二 1,2,...,N)， 而 且 每 个 a_(i) 的 计算 利用 前 一 时 刻 N 个 a0)。 减 
少 计算 量 的 原因 在 于 每 一 次 计算 直接 引用 前 一 个 时 刻 的 计算 结果 ， 避 人 免 
重复 计算 。 这 样 ， 利 用 前 向 概率 计算 P(OI4) 的 计算 量 是 OONY: T) 阶 的 ， 而 
不 是 直接 计算 的 OCTND 阶 。 








2 3 可 
图 10.2 ”观测 序列 路 径 结构 


例 10.2 考虑 例子 和 球 模型 4 二 (A，B, 凤 )， 状 态 集合 Q 二 {1,2,3}， 
观测 集合 V 二 { 红 ， 日 }， 


0 V2 U3 和 
4=|0.3 0.5 0.2|, B=|0.4 0.6|, z=(0.2,0.4,0.4)' 
02 03 05 0.7 0.3 
设 T=3，O=( 红 , 白 , 红 )， 试 用 前 向 算法 计算 P(O|4)。 
解 ” 按照 算法 10.2 
(1) 计算 初 值 
o(l)=xb (0)=0.10 
W020) = =0.16 
0(3)= zx,b,(0,) = 0.28 
(2) 递 推 计算 


a,(l)= ou ao- 0.154x0.5=0.077 
O)=| >a (Was [hos) =0184x0.6=01 104 


=| Ya (ass |b,(0,)=0.202x0.3=0.0606 


t= 


mts 
| 


2(D)= be Oa (o,) = 0.04187 
区 的 = A (0;) = 0.03551 


Qa,(3) = om jseo- 0.05284 
(3) 终止 
P(O|ND = a,(i)=0.13022 四 


10.2.3 ”后 向 算法 


定义 10.3 后 向 概率 ) ”给 定 隐 马 尔 可 夫 模 型 4， 定 义 在 时 刻 t 状 态 


为 q 的 条 件 下 ， 从 t+1 到 T 的 部 分 观测 序列 为 0.,0.,,…,0; 的 概率 为 后 回 概 
率 ， 记 作 
Bb(i)= P(o,,,0,,,,%,07 |i = 9g,,4) (10.18) 
可 以 用 递 推 的 方法 求 得 后 癌 概 率 BG) 及 观 调 序列 概率 P(OI4)。 
算法 10.3 ”《〈 观 训 序 列 概率 的 后 癌 算 法 ) 
输入 : 隐 马 尔 可 夫 模 型 4， 观 测序 列 O; 
输出 : 观测 序列 概率 P(O|4)。 


(1) 





BO)=1，i=12…,N (10.19) 


(2) 对 :5=7 了 -17 一 2……,] 
N 
Bb(i)= Ya,b,(0,n)B,,()), i=1,2,…,N (10.20) 
j=]| 
(3) 
VN 
P(O|2)= xb (0)B (i) (10.21) a 


步骤 (1) 初始 化 后 向 概率 ， 对 最 终 时 刻 的 所 有 状态 q 规 定 BG)=1。 
步骤 (2) 是 后 向 概率 的 递 推 公式 。 如 图 10.3 所 示 ， 为 了 计算 在 时 刻 t 状 
态 为 q 条 件 下 时 刻 t+1 之 后 的 观测 序列 为 0.,0,.….,0, 的 后 向 概率 B(i)， 只 需 
考虑 在 时 刻 t+1 所 有 











dN 
I t+l1 
Bln) Bl)) 
图 10.3 ”后 向 概率 弟 推 公式 


可 能 的 N 个 状态 q 的 转移 概率 〈 即 a 项 ) ， 以 及 在 此 状态 下 的 观测 o., 的 观 
测 概率 《〈 即 b(o.) 项 ) ， 然 后 考虑 状态 q 之 后 的 观测 序列 的 后 向 概率 《 即 
B_0) 项 ) 。 步 又 〈3) 求 P(O|4) 的 思路 与 步 又 〈2) 一致， 只 是 初始 概率 
下 代替 转移 概率 。 





利用 前 问 概 紊 和 后 向 概率 的 定义 可 以 将 观测 序列 概率 P(O|4) 统 一 写 


N NN 
P(O|N)=2 .0Dab(o)Ba()), t=1,2,…,T—1 (10.22) 


i=| fj=] 


此 式 当 t=1 和 t=T-1 时 分 别 为 式 〈10.17) 和 式 〈10.21) 。 
10.2.4 “一些 概率 与 期 望 值 的 计算 
利用 前 向 概率 和 后 癌 概 率 ， 可 以 得 到 关于 单个 状态 和 两 个 状态 概率 


的 计算 公式 。 
1， 给 定 模型 4 和 观测 O， 在 时 刻 ! 处 于 状态 q 的 概率 。 记 
1,()=P(i, = q;10,%) (10.23) 
可 以 通过 前 向 后 向 概率 计算 。 事实 上 ， 


7,(i)= P(i = 9g,|0,4)= 


由 前 问 概 率 a(i) 和 后 同 概率 BQ 定义 可 知 : 
Q(B (i) = P(i = gq,,0|4) 











P(i =g,,0|) 
P(O|4) 


于 是 得 到 : 


0-2060 __ odBO 


MN 
MOI va po) 
j=1 
2. 给 定 模 型 和 4 和 观测 O， 在 时 刻 t 处 于 状态 iq 且 在 时 刻 1t+ 处 于 状态 q 
的 概率 。 记 
6(i,7)= PG = gly = 人; 10,4) (10.25) 
可 以 通过 前 同 后 同 概率 计算 : 
Pli=g,in=90|4) Pli=g,in =4,,0|4) 


P(O a . . 
(O14) > Psia=Y0|) 


i=l j=l 





(10.24) 





(i,j) = 


PU = qb =qg;,,0|4)=&,(i)a,b,(0,.)pB.n()) 
所 以 


a ci (i)ab,(o,, )PB.i()) 
SU 


N 
2 2 (Da,b, (0,, 1 (7) 


i=] j=] 
3. 将 YG) 和 (Gj) 对 各 个 时 刻 t 求 和 ， 可 以 得 到 一 些 有 用 的 期 望 值 : 
(1) 在 观测 O 下 状态 出现 的 期 望 值 


(10.26) 


pA (10.27) 
(2) 在 观测 O 下 由 状态 i 转 移 的 期 望 人 

Sy.0) (10.28) 
C3) 在 观测 O 下 由 状态 ;转移 到 状态 j 的 期 望 信 

RA, (10.29) 


10.3 ”学 习 算法 


隐 马 尔 可 夫 模 型 的 学 习 ， 根 据 训练 数据 是 包括 观测 序列 和 对 应 的 状 
态 序 列 还 是 只 有 观测 序列 ， 可 以 分 别 由 监督 学 习 与 非 监 督学 习 实现 。 本 
节 首 先 介 绍 监督 学 习 算 法 ， 而 后 介绍 非 监 督学 习 算 法 一 一 Baum-Welch 
算法 (也 就 是 EM 算法 ) 。 


10.3.1 监督 学 习 方 法 


假设 已 给 训练 数据 包含 S 个 长 度 相 同 的 观测 序列 和 对 应 的 状态 序列 
{(O,L),(O,L),.…,(O,1)}， 那 么 可 以 利用 极 大 似 然 佑 计 法 来 估计 隐 马 尔 可 
夫 模 型 的 参数 。 具 体 方法 如 下 。 

1. 转移 概率 a 的 估计 

设 样本 中 时 刻 t 处 于 状态 i 时 刻 t+1 转 移 到 状态 j 的 频数 为 A， 那 么 状态 
转移 概率 a 的 估计 是 


=, i=1,2,,N; j=1,2,…,N (10.30) 














2. 观测 概率 b(k) 的 估计 
设 样本 中 状态 为 j 并 观测 为 k 的 频数 是 B,， 那 么 状态 为 观测 为 k 的 概 
率 b(k) 的 估计 是 
. B, 
bt) = 一 二 j=1,2,,N; k=1,2,.…,M (10.31) 
2 BA 
大 =|] 
3. 初始 状态 概率 下 的 估计 起 为 个 样本 中 初始 状态 为 q 的 频率 
由 于 监督 学 习 需 要 使 用 训练 数据 ， 而 人 工 标注 训练 数据 往往 代价 很 
高 ， 有 时 就 会 利用 非 监 督学 习 的 方法 。 


10.3.2 ”Baum-Welch 算 法 


假设 给 定 训 练 数据 只 包含 S 个 长 度 为 T 的 观测 序列 {0,,0,…O,} 而 没 
有 对 应 的 状态 序列 ， 目 标 是 学 习 隐 马尔 可 夫 模 型 4 二 (A，B, 到 ) 的 参数 。 
我 们 将 观测 序列 数据 看 作 观 测 数据 O， 状 态 序列 数据 看 作 不 可 观测 的 隐 
数据 I， 那 么 隐 瑟 尔 可 夫 模 型 事实 上 是 一 个 合 有 隐 变 量 的 概率 模型 


P(O|A)= >.P(O|T,A)P(I LN) (10.32) 


它 的 参数 学 习 可 以 由 EM 算法 实现 。 

1. 确定 完全 数据 的 对 数 似 然 函数 

所 有 观测 数据 写成 0 二 (0,，o0,,.….,0,)， 所 有 隐 数 据 写成 I 二 (i ，i, 
.让 )， 完 全 数据 是 (0, 了 二 (0,，0,.….,0,i，i,...i)。 完 全 数据 的 对 数 似 然 
函数 是 logP(O，I|4)。 

2. EM 算法 的 E 步 : 求 Q 函 数 (4.,4) 

OQO(4,1)= 2_log P(O,T | A)P(O,1|4) (10.33) 

















其 中 ， 是 隐 马 尔 可 夫 模 型 参数 的 当前 估计 值 ，4 是 要 极 大 化 的 隐 马 尔 
可 夫 模 型 参数 。 
P(O,I A)}= 万 (oO )a;; b. (02)…Qa 0 b, (or) 
于 是 函数 Q(4,4) 可 以 写成 ; 
Q(4,4)= logx, P(O,1|4) 


7-~| T 
2 2 aii, Po" 14)+ 3b b, (0, ) po 14) (10.34) 


式 中 求 和 都 是 对 所 有 训练 数据 的 序列 总 长 度 T 进 行 的 。 

3. EM 算法 的 M 步 : 极 大 化 Q 函 数 Q(4,4) 求 模型 参数 A,B,AC 

由 于 要 极 大 化 的 参数 在 式 (10.34) 中 单独 地 出 现在 3 个 项 中 ， 所 以 
只 需 对 各 项 分 别 极 大 化 。 

(1) 式 (10.34) 的 第 1 项 可 以 写成 : 


一 N 一 
2_logx, P(O,7 |4) = >》 logx,P(O,i =i|4) 
I i=l 


注意 到 到 满足 约束 条 件 祁 ””!，， 利 用 拉 格 朗 日 乘 子 法 ， 写 出 拉 格 朗 日 函 


数 : 
> egzrPlo i -D+ Sn -1 
i=l 
对 其 求 仿 导数 并 令 吉 果 为 0 


局 | 六 oem -i1D+7 Sn -|-。 (10.35) 





Xx | 滞 i=1 
得 
P(O =i|A4)+yx,=0 
对 i 求 和 得 到 
7 =-P(O|4) 
代入 式 〈10.35) 即 得 
RE (10.36) 
P(O|4) 


(2) 式 (10.34) 的 第 2 项 可 以 写成 


>So Qa; , Jeo 1|4)= YS ioga, PO. =i,i,,=j|4) 


i=l] j=] | 





类 似 第 1 项 ， a 4 的 拉 格 朗 日 乘 子 法 可 以 求 出 


ao = 二 (10.37) 


(3) 式 (10. 34) “的 第 3 项 为 


2 六 os (0, 用 1|4)= Sjoeh (0, )P(O,i = j|4) 
I 1 1=1 

一 | 上 > 光 » _ Tbk = Vi 人 
同样 用 拉 格 朗 日 乘 子 法 ， 约 束 条 件 是 各 。 注 意 ， 只 有 在 o 一 v 时 
b(0) 对 b(k) 的 偏 导 数 才 不 为 0， 以 I(o0.==v) 表 示 。 求 得 


= 
2 FOR = 40 = 


六 (6= 己 (10.38) 


下 一 
2.P(O = j|4) 


t=| 


10.3.3”Baum-Welch 模 型 参数 估计 公式 


将 式 (10.36) 一 式 〈10.38) 中 的 各 概率 分 别 用 YG)，$ (i,j) 表 示 ， 
i 


Ds ) 


4 二 三 (10.39) 





b (Kk)=— (10.40) 


AX, =7y(1) (10.41) 
其 中 ,YG)，$ Gj 分 别 由 式 (10.24)〉 及 式 (10.26) 给 出 。 式 (10.39) 


一 式 〈10.41) 就 是 Baum-Welch 算 法 (Baum-Welch algorithm) ， 它 是 
EM 算法 在 隐 马 尔 可 夫 模 型 学 习 中 的 有 具体 实现 ， 由 Baum 和 Welch 提 出 。 

算法 10.4 (Baum-Welch 算 法 ) 

输入 : 观测 数据 0 二 (0,，0,,.….,0)); 

输出 : 隐 马 尔 可 夫 模 型 参数 。 

(1) 初始 化 

对 n 二 0， 选取 鸟 名 bE)™ a 得 到 模型 4o 王 (Ao,Bo,77w。 

(2) 递 推 。 对 n 王 12,. 





7-1 
ci 放 


(n+1) t=l 
6 站 


1 i 


7 了 一 


r Nn+tl) _ t=l,0,=v; 
bY = 


= 2 四 
右 问 各 值 按 观测 0 二 (0,， 0....0) 和 模型 如 一 [AmB 大 计算 。 式 中 久 
人 ,人 GD) 由 式 〈10.24) 和 式 (10.26) 给 出 。 
( 3) 终止 得 到 模型 参数 Mo 一 (A™,B" AN) , 


10.4 预测 算法 


下 面 介绍 隐 马 尔 可 夫 模 型 预测 的 两 种 算法 : 近似 算法 与 维特 比 算法 
(Viterbi algorithm ) 。 


10.4.1 近似 算法 


近似 算法 的 想法 是 ， 在 每 个 时 刻 t 选 择 在 该 时 刻 最 有 可 能 出 现 的 状 


态 刀 ， 从 而 得 到 一 个 状态 序列 [一 二， 五 四 ， 将 它 作为 预测 的 结 
给 定 隐 马 尔 可 夫 模型 4 和 观测 序列 O， 在 时 刻 t 处 于 状态 q 的 概率 YG) 


日 
XE 


x2a0p80 wpO 





%% 二 = = (10.42) 
Sm YA 
j=l 
在 每 一 时 刻 ( 最 有 可 能 的 状态 是 
i "=arg max[y, ly 二 (10.43 ) 


从 而 得 到 状态 序列 T= 二 丰 ， 如 ,地 )。 

过 似 敌 寺 的 做 避 总 计算 答 和 其 缺点 是 不 能 保证 预测 的 状态 序列 整 
体 是 最 有 可 能 的 状态 序列 ， 因 为 预测 的 状态 序列 可 能 有 实际 不 发 生 的 部 
分 。 事 实 上 ， 上 述 方法 得 到 的 状态 序列 中 有 可 能 存在 转移 概率 为 0 的 相 
邻 状 态 ， 即 对 人 条 些 i,j，a, 二 0 时 。 尽 管 如 此 ， 近 似 算 法 仍然 是 有 用 的 。 


10.4.2 ”维特 比 算法 


维特 比 算法 实际 是 用 动态 规划 解 隐 马尔 可 夫 模 型 预测 问题 ， 即 用 动 
态 规划 (dynamic programming) 求 概 率 最 大 路 径 〈 最 优 路 径 ) 。 这 时 一 
条 路 径 对 应 着 一 个 状态 序列 。 

根据 动态 规划 原理 ， 最 优 路 径 具 有 这 样 的 特性 ; 如 打 最 优 路 径 在 时 
刻 t 通 过 结 . 点 太 ， 那 么 这 一 路 径 从 结 点 闻 到 终点 妆 的 部 分 路 径 ， 对 于 从 妇 
到 站 的 所 有 可 和 E 的 部 分 路 径 来 说 ， 必 须 是 最 优 的 。 因为 假如 不 是 这 样 ， 
那么 从 六 到 说 就 有 另 一 条 更 好 的 部 分 路 径 存 在 ， 如 果 把 它 和 从 到 达 纪 的 
部 分 路 径 连 接 起 来 ， 就 会 形成 一 条 比 原 来 的 路 径 更 优 的 路 径 ， 这 是 矛盾 
的 。 依 据 这 一 原理 ， 我 们 只 需 从 时 刻 t 王 1 开始， 递 推 地 计算 在 时 刻 t 状 态 
为 ji 的 各 条 部 分 路 径 的 最 大 概率 ， 直 至 得 到 时 刻 {t=T 状 态 为 i 的 各 条 路 径 
的 最 大 概率 。 时 刻 {t 王 工 的 最 大 概率 即 为 最 优 路径 的 概率 P， 最 优 路 径 的 
终结 点 妆 也 同时 得 到 。 之 后 ; 为 了 找 出 最 优 路 径 的 各 个 结 点 ， .从 终结 拟 
并 开始 ， 由 后 向 前 逐步 求 得 结 点 {7-1,...,4， 得 到 最 优 路 径 T 二 (4 ，5,..., 开 
)。 这 区 是 维特 比 算 法 。 

首先 导入 两 个 变量 6 和 于。 定义 在 时 刻 t 状 态 为 i 的 所 有 单个 路 径 (i， 

i .中 概率 最 大 值 为 
6(D)= max PG, = 站 00 人 Di=12 (10.44) 


由 定义 可 得 变量 6 的 递 推 公式 : 

















OO)= max PC = 站 ,09014) 
= max[o,())a lb(0,,), i=1,2,…,N; 1=12…,7-1 (10.45) 
定义 在 时 刻 t 状 态 为 的 所 有 单个 路 径 G,，i,,.….,i,,i) 中 概率 最 大 的 路 径 
的 第 t-1 个 结 点 为 
Ww,(i) = arg max [0, (1)a] i="aN (10.46) 
下 面 介 绍 维特 比 算法 。 
算法 10.5《〈 维 特 比 算法 ) 
输入 : 模型 4 二 (A，B, 开 ) 和 观测 0 二 (0,，0,,.….,0)); 
输出 : 最 优 路 径 T= 二 (4 ，4,..., 开 )。 
(1) 初始 化 
ol(DD)= 和 Do) ， i=1,2,…,N 
yD)=0, i=1,2,.…,N 
(2) 北 推 。 对 t 二 2,3,...,T 
6()= max[d, (Palb(0), i=1,2,…,N 


Ww,(i) = arg max[o 1())a;] ， i=1,2,…,N 
(3) 终止 
本 max 0 (7) 
i =arg max[6; (i)] 
(4) 最 优 路 径 回 滴 。 对 t= 二 T-1,T-2,.….,1 
i 2 Ws (ba ) 
求 得 最 优 路 径 T 一 下， 疡 .2)。 


下 面 通过 一 个 例子 来 说 明 维 特 比 算法 。 
例 10.3” 例 10.2 的 模型 4 二 (A，B,7C)， 


:3 0.5 0.5 
4=|0.3 0.5 0.2|, B=|0.4 0.6|, xz=(0.2,0.4,0.4)" 
2 O03. "05 Dr dg 


已 知 观测 序列 0 二 ( 红 , 白 , 红 )， 试 求 最 优 状态 序列 ， 即 最 优 路 径 T= 二 上， 如 


; 国 )。 
解 ” 如 图 10.4 所 示 ， 要 在 所 有 可 能 的 路 径 中 选择 一 条 最 优 路 径 ， 按 
照 以 下 步骤 处 理 : 


状态 





0.042 






0.0147 


0.01008 





it 


0 ] 2 3 时 间 
图 10.4 ” 求 最 优 路 径 
(1) 初始 化 。 在 t= 二 1 时 ， 对 每 一 个 状态 i，i 二 1,2,3， 求 状态 为 i 观测 
0 为 红 的 概率 ， 记 此 概率 为 60G)， 则 
6(i)=xb(0)=xb( 红 ), i=1,2,3 
代入 实际 数据 
6()=0.10, 65(2)=0.16; 6(3)=0.28 
记 下 (二 0，i 一 1,2,3。 
(2) 在 t= 二 2 时 ， 对 每 个 状态 i，i 二 1,2,3， 求 在 t= 二 1 时 状态 为 j 观 测 为 
红 并 在 t 二 2 时 状态 为 i 观测 0, 为 白 的 路 径 的 最 大 概率 ， 记 此 最 大 概率 为 6 
(i), 则 
6,(i) = max [0,(7)a; 1b,(o0,) 
和 二 
同时 ， 对 每 个 状态 i，i 二 1,2,3， 记 录 概 率 最 大 路 径 的 前 一 个 状态 j: 
Wi(i) =argmax [do(Das], i=1,2,3 


计算 : 


站 =maxs[o(7)an](o:) 
=max{0.10x0.5,0.16x0.3,0.28x0.2} x0.5 
/ 


=0.028 

w,(l)=3 

6,(2)=0.0504, yw,(2)=3 

6,(3)=0.042,，w,(3)=3 

同样 ， 在 t 二 3 时 ， 

0;(7) 3 pe [0,(Da; ]b,(o;) 
W3() = arg max [0,())aj] 
6,(1) = 0.00756, vw,(l)=2 
6,(2) = 0.01008,， vy,(2)=2 
6,(3)=0.0147, wy,(3)=3 


(3) 以 P 表 示 最 优 路 径 的 概率 ， 则 
到 一 max 0,(i)=0.0147 


最 优 路 径 的 终点 是 声 : 
i =argmax [0,(i)]=3 
(4) 由 最 优 路 径 的 终点 总 ， 首 向 找到 妖冶， 
在 t=2 时 » P=w BB)=¥w()=3 
El 
于 是 求 得 最 优 路 径 ， 即 最 优 状 态 序列 [一 人 丰产 六 ) 一 (3.3,3)。 


本 章 概要 


1， 隐 马尔 可 夫 模 型 是 关于 时 序 的 概率 模型 ， 描 述 由 一 个 隐藏 的 马 
和 尔 可 夫 链 随机 生成 不 可 观测 的 状态 的 序列 ， 再 由 各 个 状态 随机 生成 一 个 


观测 而 产生 观测 的 序列 的 过 程 。 
隐 马 尔 可 夫 横 型 由 初始 状态 概率 癌 量 扩 、 状 态 转移 概率 算 阵 A 和 观 


测 概率 矩阵 B 决 定 。 因 此 ， 隐 马尔 可 夫 模 型 可 以 写成 4 王 (A，B, 人 7)。 

隐 马 尔 可 夫 模 型 是 一 个 生成 模型 ， 表 示 状 态 序列 和 观测 序列 的 联合 
分 布 ， 但 是 状态 序列 是 隐藏 的 ， 不 可 观测 的 。 

隐 马 尔 可 夫 模 型 可 以 用 于 标注 ， 这 时 状态 对 应 着 标记 。 标 注 问题 是 
给 定 观 测序 列 预 测 其 对 应 的 标记 序列 。 

2. 概率 计算 问题 。 给 定 模型 4 二 (A，B, 友 ) 和 观测 序列 0 二 (0,，o,, 
.……,0,)， 计 算 在 模型 和 下 观测 序列 O 出 现 的 概率 P(O|4)。 前 辣 - 后 疝 算法 是 
eh 问 - 后 癌 概 率 可 以 高 效 地 进行 隐 马 尔 可 夫 模 型 的 概率 
了 o 

3. 学 习 问 题 。 己 知 观测 序列 0 二 (0,，o0,.…,0,)， 估 计 模 型 4 二 (A，B， 
克 ) 参 数 ， 使 得 在 该 模型 下 观测 序列 概率 P(O|4) 最 大 。 即 用 极 大 似 然 估 计 
的 方法 估计 参数 。Baum-Welch 算 法 ， 也 就 是 EM 算法 可 以 高 效 地 对 隐 马 
尔 可 夫 模 型 进行 训练 。 它 是 一 种 非 监督 学 习 算 法 。 

4. 预测 问题 。 己 知 模型 4 二 (A，B, 友 ) 和 观测 序列 0 二 (0,，o,, 
.…0,)， 求 对 给 定 观 测序 列 条 件 概 率 P(I|IO) 最 大 的 状态 序列 I 二 (i，i, 
.….i)。 维 特 比 算法 应 用 动态 规划 高 效 地 求解 最 优 路 径 ， 即 概率 最 大 的 状 
态 序列 。 
































继续 阅读 


隐 马 尔 可 夫 模 型 的 介绍 可 见 文 献 [1,2]， 特 别 地 ， 文 献 [1] 是 经 典 的 介 
绍 性 论文 。 关 于 Baum-Welch 算 法 可 见 文献 [3,4]。 可 以 认为 概率 上 下 文 
无 关 文 法 (probabilistic context-free grammar) 是 隐 马 尔 可 夫 模 型 的 一 种 
推广 ， 隐 马尔 可 夫 模 型 的 不 可 观测 数据 是 状态 序列 ， 而 概率 上 下 文 无 基 
文法 的 不 可 观测 数据 是 上 下 文 无 关 文法 树 [5]。 动 态 贝 叶 斯 网 络 
(dynamic Bayesian network) 是 定义 在 时 序数 据 上 的 贝 叶 斯 网 络 , 它 包含 
隐 马 尔 可 夫 模 型 ， 是 一 种 特例 ®。 











习题 
10.1 给 定 盒子 和 球 组 成 的 隐 马 尔 可 夫 模 型 4 二 (A,B, 凡 )， 其 中 ， 
US QZ U3 0.3 0.5 


4=|0.3 0.5 0.2|, B=|0.4 0.6|, x=(0.2,0.4,0.4)' 
02 f% 05 0. 03 





设 T 王 4，O=( 红 , 白 , 红 , 白 )， 试 用 后 向 算法 计算 P(OI4)。 
10.2 ”考虑 盒子 和 球 组 成 的 隐 马 尔 可 夫 模 型 4 三 (A,B,A)， 其 中 ， 


ji 05 0.5 
A=|0.3 0.5 0.2|, B=|0.4 0.6|, z=(0.2,0.3,0.5)" 
0.2 0.2 0.6 Wr i 





设 T 二 8，0O 〇 三 ( 红 , 日 , 红 , 红 ,日 , 红 , 日 , 白 )， 用 前 同 后 向 概率 计算 P(i, 二 
q,|0,4)。 


10.3 ”在 习题 10.1 中 ， 试 用 维特 比 算法 求 最 优 路 径 T 二 革 ，， ,上 权 
10.4 试用 前 向 概率 和 后 向 概率 推导 
P(OL A YY wa i (WB) t=b2,%,T—] 


i=] j=| 


10.5 ”比较 维特 比 算 法 中 变量 6 的 计算 和 前 向 算法 中 变量 a 的 计算 的 


主要 区 别 。 
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注释 


[按照 Q 函 数 的 定义 四 四 
Q(N,A)=Ellogp(O, Ilo,4 ] 
式 (10.33) 略 去 了 对 有 4 而 言 的 常数 因子 1P(O| 刀 )。 


第 11 章 ”条 件 随 机 场 


条 件 随 机 场 (conditional random field,CRF)〉 是 给 定 一 组 输入 随机 变 
量 条 件 下 男 一 组 输出 随机 变量 的 条 件 概 紊 分布 模型 ， 其 特点 是 假设 输出 
随机 变量 构成 马尔 可 夫 随 机 场 。 条 件 随 机 场 可 以 用 于 不 同 的 预测 问题 ， 
本 书 仅 论 及 它 在 标注 问题 的 应 用 。 因 此 主要 讲述 线性 链 〈linear chain ) 
条 件 随机 场 ， 这 时 ， 问 题 变 成 了 由 输入 序列 对 输出 序列 预测 的 判别 模 
型 ， 形 式 为 对 数 线 性 模型 ， 其 学 习 方 法 通常 是 极 大 似 然 估计 或 正则 化 的 
极 大 似 然 估计 。 线 性 链条 件 随 机 场 应 用 于 标注 问题 是 由 Lafferty 等 人 于 
2001 年 提出 的 。 

本 间 首 先 介 绍 概率 无 同 图 模型 ， 然 后 叙述 条 件 随机 场 的 定义 和 各 种 
表示 方法 ， 最 后 介绍 条 件 随 机 场 的 3 个 基本 问题 ， 概率 计算 问题 、 学 习 
问题 和 预测 问题 。 


11.1 概率 无 器 图 模型 


概率 无 器 图 模型 (probabilistic undirected graphical model) ， 又 称 为 
马尔 可 夫 随 机 场 (Markov random field) ， 是 一 个 可 以 由 无 向 图 表示 的 
联合 概率 分 布 。 本 市 首先 叙述 概率 无 加 图 模型 的 定义 ， 然 后 介绍 概率 无 
癌 图 模型 的 因子 分 解 。 














11.1.1 模型 定义 


图 〈graph) 是 由 结 点 Cnode) 及 连接 结 点 的 边 (edge) 组 成 的 集 
合 。 结 点 和 边 分 别 记 作 v 和 e， 结 点 和 边 的 集合 分 别 记 作 V 和 E， 图 记 作 G 
二 (V,E)。 无 同 图 是 指 边 没 有 方 加 的 图 。 

概率 图 模型 (probabilistic graphical model) 是 由 图 表示 的 概率 分 
布 。 设 有 联合 概率 分 布 P(Y)，YEY 是 一 组 随机 变量 。 由 无 向 图 G 二 (VE) 
表示 概率 分 布 P(Y)， 即 在 图 G 中 ， 结 点 ve ”V 表 示 一 个 随机 变量 Y,，Y= 
(Y)veE V; 边 eEE 表 示 随 机 变量 之 间 的 概率 依赖 关系 。 

给 定 一 个 联合 概率 分 布 P(Y) 和 表示 它 的 无 器 图 G。 首 先 定义 无 回 图 
表示 的 随机 变量 之 则 存在 的 成 对 马尔 可 夫 性 (pairwise Markov 
property) 、 局 部 马尔 可 夫 性 (local Markov property) 和 全 局 马尔 可 夫 











性 〈global Markov property) 。 

成 对 马尔 可 夫 性 : 设 u 和 v 是 无 回 图 G 中 任意 两 个 没有 边 连 接 的 结 
点 ， 结 点 u 和 Vv 分 别 对 应 随机 变量 Y 和 Y,。 其 他 所 有 结 点 为 O， 对 应 的 随 
机 变量 组 是 Y。 成 对 马尔 可 夫 性 是 指 给 定 随 机 变量 组 Y. 的 条 件 下 随机 变 
量 Y 和 Y 是 条 件 独立 的 ， 即 

0 (11.1) 

局 部 马尔 可 夫 性 : 设 ve V 是 无 同 图 G 中 任意 一 个 结 点 ，W 是 与 VY 有 边 
连接 的 所 有 结 点 ，O 是 v，W 以 外 的 其 他 所 有 结 点 。v 表 示 的 随机 变量 是 
Y，W 表 示 的 随机 变量 组 是 Y,，0O 表 示 的 随机 变量 组 是 Y,。 局 部 马尔 可 
夫 性 是 指 在 给 定 随机 变量 组 Y, 的 条 件 下 随机 变量 Y 与 随机 变量 组 Y 是 独 
并 的 ， 即 

















PY,, Yo |)= PY, | )P(Yo | Ys) (11.2) 
在 P(Y_IY J)>0 时 ， 等 价 地 ， 
Pe [2 (11.3) 





图 11.1 表 示 由 式 (11.2) 或 式 (11.3) 所 示 的 局 部 马尔 可 夫 性 。 


OW 


OO 
图 11.1 局 部 马尔 可 夫 性 


全 局 马尔 可 夫 性 : 设 结 点 集合 A，B 是 在 无 向 图 G 中 被 结 点 集合 C 分 
开 的 任意 结 点 集合 ， 如 图 11.2 所 示 。 结 点 集合 A，B 和 C 所 对 应 的 随机 变 
量 组 分 别 是 Y ，Y, 和 Y_。 全 局 马尔 可 夫 性 是 指 给 定 随机 变量 组 Y 条件 下 
随机 变量 组 Y. 和 Y 是 条 件 独立 的 ， 即 

Py = POTTS (11.4) 














”图 11.2 全 局 马尔 可 夫 性 








上 述 成 对 的 、 局 部 的 、 全 局 的 马尔 可 夫 性 定义 是 等 价 的 ”。 

下 面 定义 概率 无 癌 图 模型 。 

定义 11.1( 概 率 无 句 图 模型 ) 设 有 联合 概率 分 布 P(Y)， 由 无 问 图 
G 王 (V,E) 表 示 ， 在 图 G 中 ， 结 点 表示 随机 变量 ， 边 表示 随机 变量 之 间 的 
依赖 和 关系。 如 果 联 合 概率 分 布 PIY) 满 足 成 对 、 局 部 或 全 局 马尔 可 夫 性 ， 
就 称 此 联合 概率 分 布 为 概率 无 器 图 模型 (probability undirected graphical 
model) ， 或 马尔 可 夫 随 机 场 (Markov random field) 。 

以 上 是 概率 无 问 图 模型 的 定义 ， 实 际 上 ， 我 们 更 关心 的 是 如 何 求 其 
联合 概率 分 布 。 对 给 定 的 概率 无 癌 图 模型 ， 我 们 硕 望 将 整体 的 联合 概率 
写成 大 干 子 联 合 概率 的 乘积 的 形式 ， 也 就 是 将 联合 概率 进行 因子 分 解 ， 
这 样 便 于 模型 的 学 习 与 计算 。 事 实 上 ， 概 率 无 同 图 模型 的 最 大 特点 就 是 
易于 因子 分 解 。 下 面 介绍 这 一 结果 。 


11.1.2 概率 无 同 图 模型 的 因子 分 解 


首先 给 出 无 向 图 中 的 团 与 最 大 团 的 定义 。 

定义 11.2《〈 团 与 最 大 团 ) ”无 同 图 G 中 任何 两 个 结 点 均 有 边 连 接 的 
结 点 子 集 称 为 团 (clique〉。 奋 C 是 无 铝 图 G 的 一 个 团 ， 并 且 不 能 再 加 进 
任何 一 个 G 的 结 点 使 其 成 为 一 个 更 大 的 团 ， 则 称 此 C 为 最 大 团 (maximal 
clique) 。 

图 11.3 表 示 由 4 个 结 点 组 成 的 无 铅 图 。 图 中 由 2 个 结 点 组 成 的 团 有 5 
个 : {Y,，YY,}，{Y,，Y,}，{Y,，Y,}，{Y,，YY,} 和 {Y,，Y,}。 有 2 个 最 大 
团 : {Y,，Y,Y,} 和 {Y,，Y,Y,}。 而 {Y,，Y,Y,Y,} 不 是 一 个 团 ， 因 为 Y 和 


Y 没 有 边 连 接 。 
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图 11.3 无 向 图 的 团 和 最 大 团 


将 概率 无 器 图 模型 的 联合 概率 分 布 表 示 为 其 最 大 团 上 的 随机 变量 的 
函数 的 乘积 形式 的 操作 ， 称 为 概率 无 问 网 模型 的 因子 分 解 
(factorization ) 。 

给 定 概 率 无 问 图 模型 ， 设 其 无 癌 图 为 G，C 为 G 上 的 最 大 团 ，Y 表示 
C 对 应 的 随机 变量 。 那 么 概率 无 癌 图 模型 的 联合 概率 分 布 PIY) 可 写作 网 
中 所 有 最 大 团 C 上 的 函数 下 (YJD) 的 乘积 形式 ， 即 








POY)==T Ye0) (11.5) 
其 中 ，Z 是 规范 化 因子 (normalization factor) ， 由 式 
B= Go (11.6) 
和 G 


给 出 。 规 范 化 因子 保证 P(Y) 构 成 一 个 概率 分 布 。 函 数 下 (Y) 称 为 势 函 数 
《potential function) 。 这 里 要 求 势 函数 下 (Y) 是 严格 正 的 ， 通 常 定义 为 
指数 函数 : 
VW.(Y.) =exp{-E(Y.)) (11.7) 
概率 无 回 图 模型 的 因子 分 解 由 下 述 定理 来 保证 。 
定理 11.1 (Hammersley-Clifford 定 理 ) ”概率 无 回 图 模型 的 联合 概 
率 分 布 P(Y) 可 以 表示 为 如 下 形式 : 


] 
POD = 也] 10) 


Z=2 [YC) 
} GC 


其 中 ，C 是 无 向 图 的 最 大 团 ，Y 是 C 的 结 点 对 应 的 随机 变量 ， 平 (YJ) 是 C 
上 定义 的 严格 正 函数 ， 乘 积 是 在 无 辐 图 所 有 的 最 大 团 上 进行 的 。 











11.2 条件 随 机 场 的 定义 与 形式 
11.2.1 条 件 随机 场 的 定义 


条 件 随机 场 (conditional random field) 是 给 定 随机 变量 X 条 件 下 ， 
随机 变量 Y 的 马尔 可 夫 随 机 场 。 这 里 主要 介绍 定义 在 线性 链 上 的 特殊 的 
条 件 随机 场 ， 称 为 线性 链条 件 随机 场 (linear chain conditional random 
field) 。 线 性 链条 件 随 机 场 可 以 用 于 标注 等 问题 。 这 时 ， 在 条 件 概 率 模 
型 PIYIX) 中 ，Y 是 输出 变量 ， 表 示 标 记 序列 ，X 是 输入 变量 ， 表 示 需 要 
标注 的 观测 序列 。 也 把 标记 序列 称 为 状态 序列 〈 人 参见 隐 马 尔 可 夫 模 
型 ) 。 学 习 时 ， 利 用 训练 数据 集 通 过 极 大 似 然 售 计 或 正则 化 的 极 大 似 然 
估计 得 到 条 件 概率 模型 P(YIX); 预测 时 ， 对 于 给 定 的 输入 序列 x， 求 出 
条 件 概 率 P(Y|X) 最 大 的 输出 序列 》。 

首先 定义 一 般 的 条 件 随 机 场 ， 然 后 定义 线性 链条 件 随 机 场 。 

定义 11.3《〈 条 件 随 机 场 ) ” 设 X 与 Y 是 随机 变量 ，P(Y|X) 是 在 给 定 X 
的 条 件 下 Y 的 条 件 概 率 分 布 。 奉 随机 变量 Y 构 成 一 个 由 无 同 图 G 二 (V,E) 
表示 的 马尔 可 夫 随 机 场 ， 即 

P(Y | X,Y,,w#V)=P(Y |X,Y,,w~) (11.8) 
对 任意 结 点 Vv 成 立 ， 则 称 条 件 概率 分 布 P(Y|X) 为 条 件 随机 场 。 式 中 w~v 
表示 在 图 G 二 (V,E) 中 与 结 点 v 有 边 连 接 的 所 有 结 点 w，wzv 表 示 结 点 v 以 
外 的 所 有 结 点 ，Y,，YY 与 Y 为 结 点 v，u 与 Ww 对 应 的 随机 变量 。 

在 定义 中 并 没有 要 求 X 和 Y 具 有 相同 的 结构 。 现 实 中 ， 一 般 假设 X 和 
Y 有 相同 的 图 结构 。 本 书 主要 考虑 无 问 图 为 如 图 11.4 与 图 11.5 所 示 的 线 
性 链 的 情况 ， 即 

0 By 
在 此 情况 下 ，X= 二 (X,,X,...,X)，Y 二 (Y,，Y,...,Y)， 最 大 团 是 相 邻 两 个 
结 点 的 集合 。 线 性 链条 件 随机 场 有 下 面 的 定义 。 
六 y, y 7 
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图 11.4 “线性 链条 件 随机 场 























过 站 外 效 
图 11.5 X 和 Y 有 相同 的 图 结构 的 线性 链条 件 随机 场 


定义 11.4〔 线 性 链条 件 随机 场 )” 设 X=(X,X,.…,X), Y=(Y,,，Y， 
..…,Y) 均 为 线性 链表 示 的 随机 变量 序列 ， 若 在 给 定 随机 变量 序列 X 的 条 
件 下 ， 随 机 变量 序列 Y 的 条 件 概率 分 布 PCY|X) 构 成 条 件 随机 场 ， 即 满足 
马尔 可 夫 性 

A SA A A 


i—1? i+l 








i=1,2,…,n (在 i=1 和 7 时 只 考虑 单 边 ) (11.9) 
则 称 P(Y|X) 为 线性 链条 件 随 机 场 。 在 标注 问题 中 ，X 表 示 输 入 观测 序 
列 ，Y 表 示 对 应 的 输出 标记 序列 或 状态 序列 。 


11.2.2 条 件 随机 场 的 参数 化 形式 


根据 定理 11.1， 可 以 给 出 线性 链条 件 随机 场 P(Y|X) 的 因子 分 解 式 ， 
各 因子 是 定义 在 相 邻 两 个 结 点 上 的 函数 。 

定理 11.2 (线性 链条 件 随机 场 的 参数 化 形式 ) ” 设 P(Y|X) 为 线性 链 
条 件 随 机 场 ， 则 在 随机 变量 X 取 值 为 x 的 条 件 下 ， 随 机 变量 Y 取 值 为 y 的 
条 件 概率 具有 如 下 形式 








Ply | Xx) ji pe 2 (y1 31)»,,X,7) EE (1 1.10) 
Z(x) ik i 
其 中 ， 
Z(x)= Zeo| Zi (7 ,2 人 + so (11.11) 
上 ik ,i 


式 中 ，t 和 s 是 特征 函数 ， 和 和 碎 是 对 应 的 权 值 。Z(x) 是 规范 化 因子 ， 求 
和 是 在 所 有 可 能 的 输出 序列 上 进行 的 。 

式 (11.10) 和 式 〈11.11) 是 线性 链条 件 随 机 场 模型 的 基本 形式 ， 
表示 给 定 输入 序列 x， 对 输出 序列 y 预 测 的 条 件 概率 。 式 (11.10〉 和 式 
(11.11)〉 中 t 是 定义 在 边 上 的 特征 函数 ， 称 为 转移 特征 ， 依 赖 于 当前 和 


前 一 个 位 置 ，s 是 定义 在 结 点 上 的 特征 函数 ， 称 为 状态 特征 ， 依 赖 于 当 
前 位 置 。t 和 s 都 依赖 于 位 置 ， 是 局 部 特征 函数 。 通 常 ， 特 征 函 数 t 和 s 取 
值 为 1 或 0， 当 满足 特征 条 件 时 取 值 为 1， 否 则 为 0。 条 件 随 机 场 完 全 由 特 
征 函 数 4，s 和 对 应 的 权 值 4， 此 确定 。 

线性 链条 件 随 机 场 也 是 对 数 线性 模型 (log linear model) 。 

下 面 看 一 个 简单 的 例子 。 

例 11.1 设 有 一 标注 问题 : 输入 观测 序列 为 X= 二 (X,,X,,X,)， 输 出 标 
记 序 列 为 Y= 二 (Y,，Y,Y)，Y,Y,Y 取 值 于 了 ={1,2}。 

假设 特征 t,s 和 对 应 的 权 值 和 ,上 如 下 : 

t=t(yp =1,y,=2,X,), i=2,3, N=1 
这 里 只 注 明 特征 取 值 为 1 的 条 件 ， 取 值 为 0 的 条 件 省 略 ， 即 
y=1,y,=2,x,i,(1= 2,3) 


. 1, 


下 同 。 
tb, =t,(y, =1,y, =1,x,2) 几 =0.5 
t=t,(y, =2,y, =1,x,3) =1 
ts =t,(y, =2,y, =1,x,2), 7,=|] 
ts =t(y, =2,y, =2,xX,3), 4, =0.2 
$1 三 SN =1,x,1), AM 三 ] 
5) = $5,(), =2,X,1), i=1,2 4, =0.5 
$3 =53(y; =1,x,i), i=2,3 A =0.8 
$4 = $4(y; = 2,xX,3), A =0.5 


对 给 定 的 观测 序列 x， 求 标记 序列 为 y 三 (y,ysy) 三 (12,3) 的 非 规 范 化 条 件 
概率 《〈 即 没有 除 以 规范 化 因子 的 条 件 概率 ) 。 
解 由 式 〈11.10) ， 线 性 链条 件 随 机 场 模型 为 


3 3 4 3 
P(y|x)« b> nt ) 
k=1 i=2 kel 


对 给 定 的 观测 序列 x， 标 记 序 列 y=(12,2) 的 非 规范 化 条 件 概 率 为 
天 (及 :一 上 入 = 2 exp G2) 国 


11.2.3 条件 随机 场 的 简化 形式 


条 件 随 机 场 还 可 以 由 简化 形式 表示 。 注 意 到 条 件 随 机 场 式 
《11.10) 中 同一 特征 在 各 个 位 置 都 有 定义 ， 可 以 对 同一 个 特征 在 各 个 
位 置 求 和 ， 将 局 部 特征 函数 转化 为 一 个 全 局 特征 函数 ， 这 样 就 可 以 将 条 
0 内 积 形式 ， 即 条 件 随机 场 的 简化 形 
工 No 
为 简便 起 匈 ， 首 先 将 转移 特征 和 状态 特征 及 其 权 值 用 统一 的 符号 表 
示 。 设 有 K 个 转移 特征 ，K, 个 状态 特征 ，K 二 K+K,， 记 
i Amt) R= 
De Ee 
然后 ， 对 转移 与 状态 特征 在 各 个 位 置 求 和 ， 记 作 
Cs > A i Rk (11.13) 
=] 


用 w 表示 特征 f(y,x) 的 权 值 ， 即 
所 =12 5 


(CU 














Wr | 可 二 下 2 ee 
于 是 ， 条 件 随 机 场 (11.11) ~ (11.12) 可 表示 为 
P(y|x)= i exp > w, f(y,x) (T1135) 
大 
ZN=>> exp > mw fax) (11.16) 
1 k=] 
若 以 w 表 示 权 值 向 量 ， 即 
w= (W,W,,, Wk YY LA 
以 F(y,x) 表 示 全 局 特征 向 量 ， 即 
Py ={ (2 LO Ou) (11.18) 
则 条 件 随机 场 可 以 写成 向 量 w 与 F(y,x) 的 内 积 的 形式 : 
exp(w. F(y,x)) 
P(y|x)=—————— ~ (11.19) 


Z, (Xx) 
其 中 ， 


Z,(x)= >_exp(w:F(y,x)) (11.20) 


11.2.4 条件 随 机 场 的 算 阵 形式 


条 件 随机 场 还 可 以 由 和 矩阵 表示 。 假 设 P.(Y|X) 是 由 式 (11.15) 一 
(11.16) 给 出 的 线性 链条 件 随机 场 ， 表 示 对 给 定 观 测序 列 x， 相 应 的 标 
记 序 列 y 的 条 件 概 率 。 引 进 特 殊 的 起 点 和 终点 状态 标记 y, 二 start，y,, 二 
stop， 这 时 P_(Y|X) 可 以 通过 算 阵 形式 表示 。 

对 观测 序列 x 的 每 一 个 位 置 1 二 1,2,...,n+1， 定 义 一 个 m 阶 和 矩阵 (m 是 
标记 y 取 值 的 个 数 ) 


M(x)=[M,(y.1,y, | 7) (11.21) 
M(y.1,7, 1x) =exp(W(y, 1,», |x)) (LEZ2Y 
W(y,,y 1D=P wf 本 (11.23) 


这 样 给 定 现 测 序列; 标记 序列 y 的 非 规范 化 概率 可 以 通过 n+1 个 
算 阵 的 乘积 [La Mi(Yi4s3 1? 表示， 于 是 ， 条 件 概率 P (YIX) 是 





] 
P(y|X)=——— Ma y, | x) (11.24) 
\ Z,,(X) 
其 中 ， es 是 n+1 个 矩阵 的 乘积 的 (start,stop〉 元 素 : 
Z,(x)= (M(x)M, (x):…M,,(x)) (11.25) 


start ,stop 
注意，y, 二 start 与 y,,, 王 stop 表 示 开 始 状 态 与 终止 状态 ， 规 范 化 因子 Z(X) 
是 以 start 为 起 点 stop 为 终点 通过 状态 的 所 有 路 径 y，y,.…y, 的 非 规 范 化 概率 


nn 二 1 
LM 1X)>> 和 。 下 面 的 例子 说 明了 这 一 事实 。 

例 11.2 ”给 定 一 个 由 图 11.6 所 示 的 线性 链条 件 随 机 场 ， 观 测序 列 x， 
状态 序列 y，i 二 1,2,3，n 二 3， 标 记 yE{1,2}， 假 设 y, 二 start 二 1，y, 二 stop 
二 1， 各 个 位 置 的 随机 和 矩阵 M(x)，M,(x)，M.(x)，M.(%) 分 别 是 





Wis Uo do» 及 ,0 二 b! b, 
四 0 0 | 


C1 C2 1 0 
Mo-|' 这 | wo-| 


斌 求 状 态 序列 y 以 start 为 起 点 stop 为 终点 所 有 路 径 的 非 规 范 化 概率 及 规范 
因子 。 

解 ” 首 先 计算 图 11.6 中 从 start 到 stop 对 应 于 y 二 (1,1,1),，y 二 (1,1,2)， 
.…，y 二 (2,2,2) 各 路 径 的 非 规 范 化 概率 分 别 是 


Asidiicis Qoibiice s aoibisc ， aoibisC 


a bd ? awbyici2’ Qo;by ca ， GozDo5c27 





图 11.6 ”状态 路 径 


然后 按 式 (11.25) 求 规范 化 因子 。 通 过 计算 矩阵 乘积 M (x)， 
M(x)，M.(x)，M.(x) 可 知 ， 其 第 1 行 第 1 列 的 元 素 为 
aoibiici + awbyicr tanbssca tawbacn 
+ aoibiiciy + G0byiCis 十 aoc2 + G0,by2Cn 


恰好 等 于 从 start 到 stop 的 所 有 路 径 的 非 规范 化 概率 之 和 ， 即 规范 化 因子 


Z(X)。 
11.3 ”条件 随机 场 的 概率 计算 问题 


条 件 随机 场 的 概率 计算 问题 是 给 定 条 件 随机 场 P(Y|X)， 输 入 序列 x 

和 输出 序列 y， 计 算 条 件 概 率 P(Y, 二 y|x)，P(Y,, 二 y,,Y 二 ylx) 以 及 相应 的 

数学 期 望 的 问题 。 为 了 方便 起 见 ， 像 隐 马 尔 可 夫 模 型 那样 ， 引 进 前 同 - 

Sn 递归 地 计算 以 上 概率 及 期 望 值 。 这 样 的 算法 称 为 前 回 - 后 问 
二。 


11.3.1 ”前 问 -后 癌 算 法 








对 每 个 指标 i 二 0,1,...,n+1， 定 义 前 向 向 量 a(x): 
aolD-| -i (11.26) 
递 推 公式 为 
& (Dw RM | i tl (11.27) 
又 可 表示 为 
ai (Xx) = 0 (x)M On) (11.28) 


a(yx) 表 示 在 位 置 1 的 标记 是 y 并 且 到 位 置 的 前 部 分 标记 序列 的 非 规 范 化 
概率 ，y 可 取 的 值 有 m 个 ， 所 以 a(x) 是 m 维 列 癌 量 。 
同样 ， 对 每 个 指标 i 二 0,1,...,n+1， 定 义 后 向 向 量 B.(x): 


a > 二 stop 
RR On xX) 天 lo, 否 则 ( ] 1] .29) 
pb, (y,|x)=M, (yy | x)B_ (y,, | 7) (11.30) 
又 可 表示 为 
B(x)= MM. (WP (7X) TNT 


B(yX) 表 示 在 位 置 的 标记 为 y 并 且 从 i+1 到 n 的 后 部 分 标记 序列 的 非 规范 
化 概率 。 
由 前 向 -后 向 向 量 定义 不 难得 到 |: 
Z(A =0 (1=T 8(%) 
这 里 ，1 是 元 素 均 为 1 的 m 维 列 向 量 。 


11.3.2 ”概率 计算 


按照 前 癌 - 后 向 向 量 的 定义 ， 很 容易 计算 标记 序列 在 位 置 1 是 标记 y, 
的 条 件 概 率 和 在 位 置 i-1 与 是 标记 y,, 和 y 的 条 件 概 率 : 

















ee 
7 (11.32) 
CR 一 =y, = (11.33) 
其 中 ， 

Z(x)=a, (x).1 


11.3.3 ”期望值 的 计算 
利用 前 问 -后 向 问 量 ， 可 以 计算 特征 函数 关于 联合 分 布 P(X,Y) 和 条 
件 分 布 P(Y|X) 的 数学 期 望 。 
特征 函数 f 关 于 条 件 分布 P(Y|X) 的 数学 期 望 是 
Envolfi]= 2 PO ,7) 








本 刀 ; Qi(y, [x)M, (yi1, 7 [x)B(y, | x») 
= fi ~ 
k=1,2,.…,K {11.34) 


其 中 ， 
Z(x)=0; (7) 
假设 经 验 分 布 为 P(X)， 特 征 函数 {关于 联合 分 布 P(X,Y) 的 数学 期 望 


是 
nt] 
Exnlfil= RD)2 fa Oi yl) 
Ty i=] 
=5 PO)D PO OY fy yn) 
着 上 f=| 
中 有 二 | T M ,y, ; ; 
-POD 2 fOr Qi-i(yi1 | X) ee [2)B.(y, |7) 
KF=t2.3 {11.35) 
~、 中 > 


Z(x)=0, (x):1 
式 (11.34) 和 式 (11.35)〉 是 特征 函数 数学 期 望 的 一 般 计 算 公 式 。 


对 于 转移 特征 t(y ,yx，iD，Kk=12,... 区 ， 可 以 将 式 中 的 f 换 成 [， 对 于 状 
态 特征 ， 可 以 将 式 中 的 f 换 成 s， 表 示 为 s(y，x, i)，k 二 K+1，1=1,2, 


ee 
有 了 式 (11.32) 一 式 〈11.35) ， 对 于 给 定 的 观测 序列 x 与 标记 序列 
， 可 以 通过 一 次 前 向 扫描 计算 a 及 Z(x)， 通 过 一 次 后 向 扫描 计算 B， 从 
而 计算 所 有 的 概率 和 特征 的 期 望 


11.4 条 件 随机 场 的 学 习 算 法 


本 节 讨 论 给 定 训练 数据 集 估计 条 件 随 机 场 模型 参数 的 问题 ， 即 条 件 
随机 场 的 学 习 问 题 。 条 件 随 机 场 模型 实际 上 是 定义 在 时 序数 据 上 的 对 数 
线形 模型 ， 其 学 习 方 法 包括 极 大 似 然 估计 和 正则 化 的 极 大 似 然 佑 计 。 具 
体 的 优化 实现 算法 有 改进 的 兴 代 尺度 法 IIS、 标 度 下 降 法 以 及 拟 牛 顿 法 
(参阅 附录 A 和 附录 B)。 


11.4.1 改进 的 迭代 尺度 法 


已 知 训练 数据 集 ， 由 此 可 知 经 验 概 率 分 布 EX,Y)。 可 以 通过 极 大 化 
训练 数据 的 对 数 似 然 函数 来 求 模型 参数 。 
训练 数据 的 对 数 似 然 函数 为 


LW= Ls(P)=log] TR.012) ™” =P y)logP,(y|x) 


当 P 是 一 个 由 式 (11.15) 和 式 (11.16) 给 出 的 条 件 随机 场 模型 时 ， 对 
数 似 然 函 数 为 


L(w) = > P(x., y)logP (y|x) 
way | 
= Dc y)>, WwW f(y,xX)— P(x,y)logZ., om| 
Ky k=] 
N K N 
一 > w, f, (Py) log Z,,(X;) 


j=] k=] ;=! 
改进 的 迭代 尺度 法 通过 过 代 的 方法 不 断 优 化 对 数 似 然 函数 改变 量 的 
ea a 











(w+0 ,WwW,+0,.….,Wi+0,)。 在 每 步 迭 代 过 程 中 ， 改 进 的 迭代 尺度 法 通过 依 
次 求解 式 〈11.36) 和 式 〈11.37) ， 得 到 6 二 (6,6,,.….,0,)。 推 导 可 参考 本 
书 6.3.1 节 。 

关于 转移 特征 t 的 更 新 方程 为 


Es;lt,]= » P(x, yo (Pas i) 
理 ， i=] 


> La 
= 》 POOPGY Ix) (ys, Xi) exp(6.T(x, »)) 
x,) =】 


k=1,2,.…,K, (11.36) 
于 状态 特征 ls 的 更 新 方程 为 


N+] 
Esls, | 二 > PY. 7)》 35) Cs 
XxX.) i=!1 


到 到 P(x)P(y| 区 > 总 GDexp(Ok 1T (x,y)) 
X.) =! 


1 =12,…, 天 ， (11.37) 
这 里 ，T(x,y) 是 在 数据 (x,y) 中 出 现 所 有 特征 数 的 总 和 : 
大 n+l 
T= = > > 天 [六 0 矶 才 (11.38) 
大 k= i=! 


算法 11.1 (条 件 随机 场 模型 学 习 的 改进 的 迭代 尺度 法 ) 
输入 : 特征 函数 tt.….,t,，s,s,.…,S; 经 验 分 布 AX,Y); 
输出 : 参数 估计 值 W， 模 型 Py。 
(1) 对 所 有 keE{1,2,...,K}， 取 初 值 w, 二 0 
(2) 对 每 一 keE{1,2,...,K}: 
(a) 当 k 二 1,2,...,K 时 ， 令 6 是 方程 

N+] 


2 P(X)P(Oy | x) Dt (ys, Xi) exp(6.T(x,»)) = Eslt] 
X,Y i=] 


的 解 ; 
当 k 二 K+1，]1 二 1,2,.….,K, 时 ， 令 6K ,是 方程 


> POCOPCy | x) 沁 (9;,X,i) exp(Og HL (x.»)) = Esls, | 
EY i=] 


的 解 ， 式 中 T(x,y) 由 式 (11.38) 给 出 。 

(b) 更 新 w, 值 : Ww, w+0 

(3) 如 果 不 是 所 有 w, 都 收 化 ， 重 复 步 又 (2)。 

在 式 (11.36) 和 式 (11.37〉 中，T(x,y) 表 示 数 据 (X,Y) 中 的 特征 总 
9 能 不 同 。 为 了 处 理 这 个 问题 ， 定 义 松弛 
村 


S(x,y)=S— > Ce ae) (11.39) 
l=l k=] 
式 中 S 是 一 个 和 常数。 选择 足够 大 的 沼 数 S 使 得 对 训练 数据 集 的 所 有 数据 


(X,Y)，s(X,Y)>0 成 立 。 这 时 特征 总 数 可 取 S。 
由 式 (11.36)〉 ， 对 于 转移 特征 t，6 的 更 新 方程 是 











几 直 】 
», P(x)P(y | 科 这 流 (yi1, ,X17) exp(0.S)= Et ] (11.40) 
1 
= 二 ]og 一 : 11.41 
其 中 ， 
E(t,)= PPS Db, (11.42) 
bp 
同样 由 式 (11. A 对 于 状态 特征 s，6 的 更 新 方程 是 
>》 P(x)P(y|x)2 sx,i)exp(6x 1S)= Esls,] (11.43) 
下 ,站 | 
1 E;[s,] 
60, ,= 一 log 一 (11.44) 
1 Epls,] 
其 中 ， 
E,(s,)= DBS Ts 0) Ss A (11.45) 


el Z(x) 
以 上 算法 和 水 为 算法 S$。 在 算法 5 中 第 要 使 单数 S 取 够 大 ， 这 样 一 
来 ， 每 步 迭 代 的 增 量 向 量 会 变 大 ， 算 法 收敛 会 变 慢 。 算 法 T 试 图 解决 这 
个 问题 。 算 法 T 对 每 个 观测 序列 x 计算 其 特 征 总 数 最 大 值 T(x);: 





(二 max T(x,y) (11.46) 


利用 前 癌 - 后 向 弟 推 公式 ， 可 以 很 容易 地 计算 T(x) 二 t。 
这 时 ， 关 于 转移 特征 参数 的 更 新 方程 可 以 写成 : 


Ss n+l 
Elt,]= P(x)P(y | x)》 (1, ,Xi)exp(o0.T(x)) 
Ty i=] 


n+| 


= > Pl) Pl(y| xX) ti (yi 1 ,Xi) exp(O.T(x)) 
x y i=] 


= » P(x)a, , exp(O， :1) 


Max 


= .0 (11.47) 


这 里 ，a 是 特征 t 的 期 待 值 ，6 二 logB,.。B, 是 多 项 式 方程 (11.47〉 唯一 的 
实 根 ， 可 以 用 牛顿 法 求 得 。 从 而 求 得 相关 的 6.。 
同样 ， 关 于 状态 特征 的 参数 更 新 方程 可 以 写成 : 


Els,]= > P(x)P(y | 地 六. 六 (v. ,X,i)exp(Ox lt 
x,» i=l 
= 》 P(x)Y P(y|x)) s,(y,,x,i)exp(6 ,T(x)) 
x ; i=| 


= PC exp(O .1) 


= 已 (11.48) 


这 里 ， b 是 特征 s 的 期 望 值 ， 0 二 log0,，0 是 多 项 式 方程 (11.48) 唯一 的 
实 根 ， 也 可 以 用 牛顿 法 求 得 。 


11.4.2 拟 牛 顿 法 


条 件 随机 场 模 型 学 习 还 可 以 应 用 牛顿 法 或 拟 牛 顿 法 (参阅 附录 
B) 。 对 于 条 件 随机 场 模 型 


op [> w, f,(X, | 
Cr — 
Bee Err) 
i=] 


学 习 的 优化 目标 函数 是 


min /(w)= BPO) ogFexp [内 w /es -TP y)Y wf,y) (11.50) 
其 梯度 函数 是 
g(w)= 2,P(X)P,(y|X)f (x,y)—E;(f) (11.51) 


拟 牛 顿 法 的 BFGS 算 法 如 下 。 
算法 11.2《〈 条 件 随 机 场 模型 学 习 的 BFGS 算 法 ) 
输入 : 特征 函数 f,f,...,f; 经 验 分 布 P(X,Y); 
输出 : 最 优 参 数值 Ww;， 最 优 模型 pyy(Y|X)。 
(1) 选 定 初始 点 wo， 取 B 为 正定 对 称 窍 阵 ， 置 k=0 
(2) 计算 g = 二 g(w*)。 若 g 二 0， 则 停止 计算 ;否则 转 (3) 
(3) 由 Bp 二 -g 求 出 p. 
(4) 一 维 搜索 : 求 4 使 得 
fw + Dp,)= min jw + Ap,) 
(5) 置 we 二 wo+4p， 
(6) 计算 g 三 g(we)， 若 g 王 0， 则 停止 计算 ;否则 ， 按 下 式 求 出 


(11.49) 


了 YE 本 | 
Diy _ Boor B 


yo 6B.o, 





已 = 及 + 


WB=gn gs: OF=w 
(7) 置 k 二 k+1， 转 (3) 。 


11.5 条 件 随 机 场 的 预测 算法 


条 件 随机 场 的 预测 问题 是 给 定 条 件 随 机 场 P(Y|X) 和 输入 序列 (观测 


序列 ) x， 求 条 件 概率 最 大 的 输出 序列 (标记 序列 ) yy， 即 对 观测 序列 进 
行 标注 。 条 件 随 机 场 的 预测 算法 是 阁 名 的 维特 比 算法 (参阅 本 书 10.4 
人 
由 式 (11.19) 可 得 : 
y =argmaxP (y|x) 


Spe 
Z,(%) 
=argmax exp(w* F(y,x)) 


= arg max 
» 


=argmax(w. F(y,x)) 
于 是 ， 条 件 随 机 场 的 预测 问题 成 为 求 非 规范 化 概率 最 大 的 最 优 路 径 问 题 
max (w: FP(y,xX)) (11.32) 
这 里 ， 路 径 表 示 标 记 序列 。 其 中 ， 


w= (W,W,,…, Wk 

F(y, 天 二 (% (y, | A (y, Xx), | je (y, yy 

A pd), ksl,Z,R 

i=] 
注意 ， 这 时 只 需 计算 非 规范 化 概率 ， 而 不 必 计 算 概率 ， 可 以 大 大 提高 效 
率 。 为 了 求解 最 优 路 径 ， 将 式 〈11.52) 写成 如 下 形式 : 
max Dw: Fi(yi 1 yx) (11 ,33) 
了 i=] 


其 中 ， 
x (7 9 yy E xX) (f 和 ? J), ? Xx， i), 天 CE 9 J, 9 入， i), 和 六 (Ci, 9 了 9 入， 2 
是 局 部 特征 问 量 。 
下 面 叙 述 维特 比 算 法 。 首 移 求 出 位 置 1 的 各 个 标记 j 三 12,…m 的 非 
规范 化 概率 : 
oO(j)=wF(y =start,y = ,xX), j=1,2,…,m (11.54) 
一 般 地 ， 由 递 推 公式 ， 求 出 到 位 置 的 各 个 标记 1 二 1,2,.….,m 的 非 规 范 化 概 
率 的 最 大 值 ， 同 时 记录 非 规范 化 概率 最 大 值 的 路 径 
0(/) = max {0,1())+ weF(y = = [=1,2,…,m (11.33) 





(1) = arg max {O(N +w Ey = =LX)}, =],2,…,m (11.56) 
直到 i 二 n 时 终止 。 这 时 求 得 非 规 范 化 概率 的 最 大 值 为 


max(w.F(y,x)) = max 0 (7) CL BS) 
及 最 优 路 径 的 终 上 
多 =arg max 0 (7)) (11.58) 
由 此 最 优 路 径 终 点 返回 ， 
=P) =n ne,] (11.59) 


求 得 最 优 路 径 y= 二 (2, 芒 ,.….,》)"。 

综 上 上 所 述 ， 得 到 条 件 随 机 场 预测 的 维特 比 算 法 : 

算法 11.3《〈 条 件 随 机 场 预 测 的 维特 比 算法 ) 

输入 : 模型 特征 向 量 F(y,x) 和 权 值 向 量 w， 观 测序 列 x 二 (x,，x, 
有 

输出 : 最 优 路 径 y = 二 (231,》2,...,))。 

(1) 初始 化 

0(7) 一 hs LA 二 Start, yl 一 区 5 二 一 | ve FN 
(2) 递 推 。 对 i 二 2,3,...,n 
0;(1) = max {0i1())+ weF(y = =U,xX)}, [=1,2,…,m 


F'(!) =arg max{o, (D+w Fy = =X)}, [=1,2,.…,m 


(3) 终止 
max(W， Fl(y, xX)) 一 O， (7) 


y =arg max oO (7) 


(4) 返回 路 径 
y= (a 二 
求 得 最 优 路 径 y 一 ( 芒 , 力 ,，.,)。 
下 面 通 过 一 个 例子 说 明 维 特 比 算法 。 
例 11.3 ”在 例 11.1 中 ， 用 维特 比 算法 求 给 定 的 输入 序列 (观测 序 
列 ) x 对 应 的 最 优 输出 序列 (标记 序列 ) y 王 (0 ,]P, 力 )。 
解 ” 特 征 函数 及 对 应 的 权 值 均 在 例 11.1 中 给 出 。 


现在 利用 维特 比 算 法 求 最 优 路 径 问 题 : 
max 可 w*eF (yy,X) 


i=] 
(1) 初始 化 
0 一 F Un = start, y = J,xX),， Jj=1,2 


i=1, 0()=1, 6(2)=0.5. 
(2) 递 推 
$f 0,(!)= max{o (7 + wb (,/,xX)} 
0,(1)= We +Nt,0.5+Nt}=1.6, (1)=1 
0,(2)=max{l+At +s,,0.5+145,}=2.5, (2)=1 
i=3 0,([)= max{0,()) +w:F(,/,x)} 
Oo,(]) = RE Msss,2.5+ Nt + a5}=4.3, PP)=2 
0,(2)=max{l.6+ Mt +15,2.5+At +Hs}=3.2, PP.(2)=1 
(3) 终止 
max(w. F(y,xX))= maxo,(!)=6,(1)= 4.3 


一 和 max 0,(1) =1 


(4) 返回 
元 = 当 )= 几 (DD=2 
力 = 肥 (2)= 肥 (2)=1 
最 优 标 记 序 列 
和 三 (为 )=( 直 2 二 


本 章 概要 


1. 概率 无 疝 图 模型 是 由 无 向 图 表示 的 联合 概率 分 布 。 无 向 图 上 的 
结 点 之 间 的 连接 关系 表示 了 联合 分 布 的 随机 变量 集合 之 间 的 条 件 独立 
性 ， 即 马尔 可 夫 性 。 因 此 ， 概 率 无 问 图 模型 也 称 为 马尔 可 夫 随 机 场 。 

概率 无 向 图 模型 或 马尔 可 夫 随 机 场 的 联合 概率 分 布 可 以 分 解 为 无 向 
图 最 大 团 上 的 正 值 函数 的 乘积 的 形式 。 








2. 条 件 随机 场 是 给 定 输入 随机 变量 X 条 件 下 ， 输 出 随机 变量 Y 的 条 
件 概 率 分 布 模型 ， 其 形式 为 参数 化 的 对 数 线性 模型 。 条 件 随机 场 的 最 大 
特点 是 假设 输出 变量 之 间 的 联合 概率 分 布 构成 概率 无 回 图 模型 ， 即 马尔 
可 夫 随 机 场 。 条 件 随机 场 是 判别 模型 。 

3. 线性 链条 件 随 机 场 是 定义 在 观测 序列 与 标记 序列 上 的 条 件 随 机 
场 。 线 性 链条 件 随机 场 一般 表 示 为 给 定 观 测序 列 条 件 下 的 标记 序列 的 条 
件 概 率 分 布 ， 由 参数 化 的 对 数 线性 模型 表示 。 模 型 包含 特征 及 相应 的 权 
值 ， 特 征 是 定义 在 线性 链 的 边 与 结 点 上 的 。 线 性 链条 件 随机 场 的 数学 表 


达 式 是 


I i ; 
P(y|x)=-— b> Nt (ys YX,i) + 放 (y. < 
Z(xX) ii il 
一 路 ? 








Z(x)= Zoo| 2 (Bes st}+ Zi 
y i i,l 


4. 线性 链条 件 随机 场 的 概率 计算 通常 利用 前 向 -后 向 算法 。 

5. 条 件 随机 场 的 学 习 方 法 通常 是 极 大 似 然 佑 计 方 法 或 正则 化 的 极 
大 似 然 佑 计 ， 即 在 给 定 训练 数据 下 ， 通 过 极 大 化 训练 数据 的 对 数 似 然 函 
数 以 估计 模型 参数 。 有 具体 的 算法 有 改进 的 迭代 扩 度 算法 、 榜 度 下 降 法 、 
拟 牛 顿 法 等 。 

6. 线性 链条 件 随 机 场 的 一 个 重要 应 用 是 标注 。 维 特 比 算 法 是 给 定 
观测 序列 求 条 件 概 紊 最 大 的 标记 序列 的 方法 。 


继续 阅读 

关于 概率 无 问 图 模型 可 以 参阅 文献 [1,2]。 关 于 条 件 随机 场 可 以 参阅 
文献 [3,4]。 在 条 件 随 机 场 提 出 之 前 已 有 最 大 业 马 尔 可 夫 模 型 等 模型 被 提 
出 ms。 条 件 随 机 场 可 以 看 作 是 最 大 灶 马 尔 可 夫 模 型 在 标注 问题 上 的 推 
广 。 支 持 癌 量 机 模型 也 被 推广 到 标注 问题 上 ®。 

习题 
11.1 写 出 图 11.3 中 无 向 图 描述 的 概率 图 模型 的 因子 分 解 式 。 
11.2 证明 Z(x) 二 %(x):1 二 17B.(x)， 其 中 1 是 元 素 均 为 1 的 m 维 列 向 














可 


O 


11.3 写 出 条 件 随 机 场 模型 学 习 的 梯度 下 降 法 。 
11.4 参考 图 11.6 的 状态 路 径 图 ， 假 设 随 机 和 矩阵 M(x)，M.(x)， 
M.(x)，M.(x) 分 别 是 


0 0 Oi a0 
wo-| | v0)-| 
0 QO3 QO "03 


人 0.5 0.5 a 0 
| 此 三 9 计 ) 二 
0.6 0.4 0 1 


求 以 start 二 2 为 起 点 stop 二 2 为 终点 的 所 有 路 径 的 状态 序列 y 的 概率 及 


概率 最 大 的 状态 序列 。 
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第 12 章 ”统计 学 习 方 法 总 结 


本 书 共 介 绍 了 10 种 主要 的 统计 学 习 方法 : 感知 机 、k 近 邻 法 、 杆 素 
贝 叶 斯 法 、 决 策 树 、 逻 辑 斯 请 回归 与 最 大 业 模 型 、 支 持 向 量 机 、 提 升 方 
法 、EM 算 法 、 隐 马尔 可 夫 模 型 和 条 件 随 机 场 。 这 10 种 统计 学 习 方 法 的 
特点 概括 总 结 在 表 12.1 中 。 

表 12.1 10 种 统计 学 习 方法 特点 的 概括 总 结 








方法 通用 问题 | 模型 特 点 | 模型 类 型 学 习 策略 | ,学习 算法 


极 小 化 误 分 点 | 误 分 点 到 | 随机 梯度 下 降 


感知 机 = E EL 面 ee 
到 超 平面 距离 平面 距 
上 近邻 法 多 类 分 类 ， 特征 空间 , 样 | Se | ss | 
[a 归 


朴素 贝 叶 斯 | 多 类 分 类 ”| 特 征 与 类 别 生成 模型 | 极 大 似 然 佑 对 数 似 然 | 概率 计算 公式 ， 
法 EM 算法 


决策 树 多 类 分 类 ， DE 回归 | 判别 模型 | 正则 化 的 极 大 | 对 数 似 然 | 特 征 选 择 ， 
回归 似 然 估计 损失 成 ， 曹 枝 


逻辑 斯 说 回 | 多 类 分 类 之 素 个 极 大 似 然 信 | 汉 辑 斯 谤 改进 的 送 代 尺 
归 与 最 大 炉 计 ， 正 则 化 的 | 损失 。 ”| 度 算法 ， 梯 度 
模型 极 大 似 然 估计 下 降 ， 报 和 名 
区 














数 线形 模 a 


支持 向量 机 | 二 类 分 类 “| 分 离 超 平 面 , | 判别 模型 | 极 小 化 正则 化 | 合 页 损失 | 序列 最 小 最 优 
核 技巧 合 页 损失 ， 软 化 算法 (SMO) 
间隔 最 大 化 
提升 方法 -类 分 类 a 2 器 的 | 判别 模型 | 极 小 化 加 法 模 | 指 数 损失 和 9 分 步 加 法 
人 痊 型 的 指数 损失 


EM 算法 ” 古人 总 变 | 极 大 似 然 估 RR 
数 估计 率 模型 
估 1T 


隐 马 尔 可 夫 | 标 注 ,| 对 数 似 然 | 概率 计算 公式 ， 


EM 算法 


条 件 随机 场 | 标注 | 改进 的 选 代 尺 
度 算 法 ， 梯 度 
下 降 ， 拟 牛顿 
法 





Q@ EM 算法 在 这 里 有 些 特殊 ， 它 是 个 一 般 方法 ， 不 具有 具体 模型 。 
下 面 对 各 种 方法 的 特点 及 其 关系 进行 简单 的 讨论 。 
1. 适用 问题 


本 书 主要 介绍 监督 学 习 方 法 。 监 督学 习 可 以 认为 是 学 习 一 个 模型 ， 
使 它 能 对 给 定 的 输入 预测 相应 的 输出 。 监 督学 习 包 括 分 类 、 标 注 、 回 
归 。 本 书 主 要 考虑 前 两 者 的 学 习 方 法 。 a 
类 标记 的 预测 问题 ， 标 注 问 题 2 是 从 观测 序列 到 标记 序列 或 状态 序列 ) 
的 预测 问题 。 可 以 认为 分 类 问题 是 标注 问题 的 特殊 情况 。 分 类 问题 中 可 











能 的 预测 结果 是 二 类 或 多 类 。 而 标注 问题 中 可 能 的 预测 结果 是 所 有 的 标 
记 序列 ， 其 数目 是 指数 级 的 。 

感知 机 、k 近 邻 法 、 杆 素 贝 叶 斯 法 、 决 策 树 、 逻 辑 斯 谤 回归 与 最 大 
炉 模型 、 支 持 向 量 机 、 提 升 方法 是 分 类 方法 。 原 始 的 感知 机 、 文 持 疝 量 
机 以 及 提升 方法 是 针对 二 类 分 类 的 ， 可 以 将 它们 扩展 到 多 类 分 类 。 隐 马 
尔 可 夫 模 型 、 条 件 随机 场 是 标注 方法 。EM 算 法 是 含有 隐 变 量 的 概率 模 
型 的 一 般 学 习 算法 ， 可 以 用 于 生成 模型 的 非 监督 学 习 。 

感知 机 、k 近 邻 法 、 杆 素 贝 叶 斯 法 、 决 策 树 是 简单 的 分 类 方法 ， 具 
有 模型 直观 、 方 法 简单 、 实 现 容易 等 特点 。 逻 辑 斯 诺 回 归 与 最 大 精 模 
型 、 文 持 向 量 机 、 提 升 方 法 是 更 复杂 但 更 有 效 的 分 类 方法 ， 往 往 分 类 准 
确 率 更 高 。 隐 马尔 可 夫 模 型 、 条 件 随 机 场 是 主要 的 标注 方法 。 通 币 条 件 
随机 场 的 标注 准确 率 更 高 。 


2. 模型 


分 类 问题 与 标注 问题 的 预测 模型 都 可 以 认为 是 表示 从 输入 空间 到 输 
出 空间 的 映射 。 它 们 可 以 写成 条 件 概率 分 布 PCY|X) 或 决策 函数 Y=f(X) 
的 形式 。 前 者 表示 给 定 输入 条 件 下 输出 的 概率 模型 ， 后 者 表示 输入 到 输 
出 的 非 概 率 模 型 。 有 时 ， 模 型 更 直接 地 表示 为 概率 模型 ， 或 者 非 概 率 模 
型 ， 但 有 时 模型 兼 有 两 种 解释 。 

朴素 贝 叶 斯 法 、 隐 马尔 可 夫 模 型 是 概率 模型 。 感 知 机 、k 近 邻 法 、 
文 持 癌 量 机 、 提 升 方法 是 非 概率 模型 。 而 决策 树 、 逻 辑 斯 详 回 归 与 最 大 
炉 模 型、 条 件 随机 场 既 可 以 看 作 是 概率 模型 ， 叉 可 以 看 作 是 非 概 京 模 
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直接 学 习 条 件 概 紊 分布 P(Y|X) 或 决策 函数 Y 二 f(X) 的 方法 为 判别 方 
法 ， 对 应 的 模型 是 判别 模型 。 感 知 机 、k 近 邻 法 、 决 策 树 、 逻 辑 斯 详 回 
归 与 最 大 燃 模 型 、 文 持 癌 量 机 、 提 升 方法 、 条 件 随机 场 是 判别 方法 。 首 
先 学 习 联 合 概 紊 分 布 P(X,Y)， 从 而 求 得 条 件 概率 分 布 P(Y|X) 的 方法 是 生 
成 方法 ， 对 应 的 模型 是 生成 模型 。 朴 素 贝 叶 斯 法 、 隐 马尔 可 夫 模 型 是 生 
成 方法 。 图 12.1 给 出 部 分 模型 之 间 的 关系 。 

可 以 用 非 监 督学 习 的 方法 学 习 生 成 模型 。 具 体 地 ， 应 用 EM 算法 可 
以 学 习 村 素 贝 叶 斯 模型 以 及 隐 和 与 尔 可 夫 模 型 。 

决策 树 是 定义 在 一 般 的 特征 空间 上 的 ， 可 以 含有 连续 变量 或 离散 变 
量 。 感 知 机 、 文 持 问 量 机 、k 近 邻 法 的 特征 空间 是 欧 氏 空间 《〈 更 一 般 
地 ， 是 希 尔 伯 特 空间 〉 。 提 升 方法 的 模型 是 弱 分 类 器 的 线性 组 合 ， 弱 分 
类 需 的 特征 空间 就 是 提升 方法 模型 的 特征 空间 。 

感知 机 模型 是 线性 模型 ， 而 逻辑 斯 席 回 归 与 最 大 燃 模 型 、 条 件 随机 


















































场 是 对 数 线 性 模型 。k 近 邻 法 、 决 倘 树 、 文 持 问 量 机 (包含 核 水 数 )、 
提升 方法 使 用 的 是 非 线 性 模型 。 

图 12.1 从 生成 与 判别 、 分 类 与 标注 两 个 方面 描述 了 几 个 统计 学 习 方 
法 之 间 的 关系 。 


朴素 贝 叶 斯 法 











_ 生成 对 判别 | 逻辑 斯 详 回 
归 与 最 大 业 


分 类 对 标注 分 类 对 标注 


刍 马尔 可 夫 生成 对 判别 


起 一 J/ 八 
模型 





图 12.1 ”部 分 模型 之 间 的 关系 


3. 学 习 策 略 


在 二 类 分 类 的 监督 学 习 中 ， 文 持 疝 量 机 、 逻 辑 斯 详 回 归 与 最 大 炳 模 
型 、 提 升 方法 各 目 使 用 合 页 损失 函数 、 迎 辑 斯 请 损失 函数 、 指 数 损失 函 
数 。3 种 损失 函数 分 别 写 为 





[1— yf (x)], (12.1) 
log[l+ exp(—»f (x))| C1 
exp(—»/ (x)) (12.3) 


这 3 种 损失 函数 都 是 0-1 损 失 函 数 的 上 界 ， 具 有 相似 的 形状 ， 如 图 12.2 所 
示 。 所 以 ， 可 以 认为 文 持 癌 量 机 、 人 逻辑 斯 席 回 归 与 最 大 燃 模 型 、 提 升 方 
法 使 用 不 同 的 代理 损失 函数 〈surrogate loss function〉 表 示 分 类 的 损失 ， 
定义 经 验 风 险 或 结构 风险 函数 ， 实 现 二 类 分 类 学 习 任务 。 学 习 的 全 上 略 古 
优化 以 下 结构 风险 函数 : 


min RELOsfON + (12.4) 


这 里 ， 第 1 项 为 经 验 风险 〈 经 验 损 失 ) ， 第 2 项 为 正则 化 项 ，L(Y,f(X)) 为 
损失 函数 ，J(f) 为 模型 的 复杂 度 ，AhA>0 为 系数 。 

文 持 回 量 机 用 世 . 范 数 表示 模型 的 复杂 度 。 原 始 的 逻辑 斯 详 回 归 与 最 
大 科 模型 没有 正则 化 项 ， 可 以 给 它们 加 上 EL . 范 数 正则 化 项 。 提 升 方法 没 
有 显 式 的 正则 化 项 ， 通 常 通过 早 停止 (early stopping) 的 方法 达到 正则 











化 的 效果 。 
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TO 0 0 0.5 1.0 1.5 2.0 
国 数 间 陋 : yf(x) 
图 12.2” 0-1 损失 函数 、 合 页 损失 函数 、 逻 辑 斯 谤 损失 函数 、 指 数 损失 函数 的 关系 


以 上 二 类 分 类 的 学 习 方 法 可 以 扩展 到 多 类 分 类 学 习 以 及 标注 问题 ， 
比如 标注 问题 的 条 件 随 机 场 可 以 看 作 是 分 类 问题 的 最 大 精 模 型 的 推广 。 
概率 模型 的 学 习 可 以 形式 化 为 极 大 似 然 佑 计 或 贝 叶 斯 估计 的 极 大 后 











验 概 率 估计 。 这 时 ， 学 习 的 策略 是 极 小 化 对 数 似 然 损失 或 极 小 化 正则 化 
的 对 数 似 然 损 失 。 对 数 似 然 损 失 可 以 写成 
-log P(y|x) 


极 大 后 验 概率 估计 时 ， 正 则 化 项 是 先 验 概 率 的 负 对 数 。 

决策 树 学 习 的 集 略 是 正则 化 的 极 大 似 然 估计 ， 损 失 函 数 是 对 数 似 然 
损失 ， 正 则 化 项 是 决策 树 的 复杂 上 度 。 

远 辑 斯 谊 回归 与 最 大 烂 模型、 条件 随 机 场 的 学 习 抹 略 既 可 以 看 成 是 
极 大 似 然 估 计 〔 或 正则 化 的 极 大 似 然 佑 计 〉， 又 可 以 看 成 是 极 小 化 逻辑 
斯 详 损 失 《〈 或 正则 化 的 逻辑 期 详 损 失 ) 。 

朴素 贝 叶 斯 模型 、 隐 马尔 可 夫 模 型 的 非 监督 学 习 也 是 极 大 似 然 估计 
或 极 大 后 验 概率 估计 ， 但 这 时 模型 含有 隐 变 量 。 


4 有 习 但 法 


统计 学 习 的 问题 有 了 具体 的 形式 以 后 ， 就 变 成 了 最 优化 问题 。 有 
时 ， 最 优化 问题 比较 简单 ， 解 析 解 存在 ， 最 优 解 可 以 由 公式 简单 计算 。 





但 在 多 数 情 况 下 ， 最 优化 问题 没有 解析 解 ， 需 要 用 数值 计算 的 方法 或 局 
发 式 的 方法 求解 。 

朴素 贝 叶 斯 法 与 隐 马 尔 可 夫 模 型 的 监督 学 习 ， 最 优 解 即 极 大 似 然 佑 
计 值 ， 可 以 由 概率 计算 公式 直接 计算 。 

感知 机 、 人 逻辑 斯 详 回 归 与 最 大 燃 模 型 、 条 件 随机 场 的 学 习 利 用 梯度 
下 降 法 、 拟 牛顿 法 等 。 这 些 都 是 一 般 的 无 约束 最 优化 问题 的 解法 。 

支持 向 量 机 学 习 ， 可 以 解 凸 二 次 规划 的 对 侦 问 题 。 有 序列 最 小 最 优 
化 算法 等 方法 。 

决策 树 学 习 是 基于 月 发 式 算法 的 典型 例 于 。 可 以 认为 特征 选择 、 生 
成 、 甬 校 是 月 发 式 地 进行 正则 化 的 极 大 似 然 估计 。 

提升 方法 利用 学 习 的 模型 是 加 法 模型 、 损 失 函 数 是 指数 损失 函数 的 
We 


EM 算法 是 一 种 迭代 的 求解 含 隐 变 量 概率 模型 参数 的 方法 ， 它 的 收 
伊 性 可 以 保证 ， 但 是 不 能 保证 收敛 到 全 局 最 优 。 

支持 向 量 机 学 习 、 人 逻辑 斯 诺 回 归 与 最 大 燃 模 型 学 习 、 条 件 随 机 场 学 
习 是 是 优化 问题 ， 全 局 最 优 解 保证 存在 。 而 其 他 学 习 问 题 则 不 是 凸 优化 


问题 。 


























附录 A 构 度 下 降 法 


梯度 下 降 法 (gradient descent) 或 最 速 下 降 法 (steepest descent) 是 
求解 无 约束 最 优化 问题 的 一 种 最 常用 的 方法 ， 有 实现 简单 的 优点 。 梯 度 
下 降 法 是 达 代 算法 ， 每 一 步 需 要 求解 目标 函数 的 梯度 问 量 。 

假设 f(x) 是 R* 上 具有 一 阶 连续 偏 导 数 的 函数 。 要 求解 的 无 约束 最 优 
化 问题 是 

min (x) (A.1) 
x 表示 目标 冰 数 f(x) 的 极 小 点 。 

梯度 下 降 法 是 一 种 迭 代 算 法 。 选 取 适 当 的 初 值 xz%*， 不 断 迭 代 ， 更 新 
x 的 值 ， 进 行 目 标 函 数 的 极 小 化 ， 直 到 收敛 。 由 于 负 梯 度 方 铝 是 使 函数 
值 下 降 最 快 的 方向 ， 在 友 代 的 每 一 步 ， 以 负 梯 度 方 向 更 新 X 的 值 ， 从 而 
达到 减少 函数 值 的 目的 。 

由 于 f(x) 具 有 一 阶 连续 偏 导 数 ， 寿 第 k 次 迭代 值 为 xz*， 则 可 将 f(x) 在 
x 附近 进行 一 阶 泰勒 展开 : 

f(x)=f (0 +8: (t=) (A.2) 
这 里 ，g 二 g(x*) 二 Vf(x%) 为 f(x) 在 x 的 梯度 。 
求 出 第 k+1 次 达 代 值 x*?: 
:A (A.3) 
其 中 ，p, 是 搜索 方向 ， 取 负 梯 度 方 癌 p,=-Vf(xo，4 是 步 长 ， 由 一 维 搜 
过 确定 ， 即 4 使 得 
REA je min jx + Ap,) (A.4) 


梯度 下 降 法 算法 如 下 : 

算法 A.1 梯度 下 降 法 ) 

输入 : 目标 函数 f(x)， 梯 度 函 数 g(x) 二 Vf(x)， 计 算 精 度 €; 

输出 : f(x) 的 极 小 点 x'。 

(1) 取 初 始 值 xoeR"， 置 k=0 

(2) 计算 f(x®) 

(3) 计算 梯度 g 二 g(x%)， 当 |lg|<E 时 ， 停 止 兴 代 ， 令 x 二 x%; 天 
则 ， 令 p, 二 -g(x*)， 求 4.,， 使 








fx +hp)=min f(x" +hAp,) 

(4) 置 x“? 二 x%+ 4p， 计算 f(x*?) 

当 |E(x*”)-f(x%)<E 或 |x**-x 吕 <E 时 ， 停 止 逻 代 ， 令 x 二 x*， 

(5) 否则 ， 置 k 二 k+1， 转 (3) 。 

当 目 标 函 数 是 凸 函数 时 ， 梯 度 下 降 法 的 解 是 全 局 最 优 解 。 一 般 情 况 











， 其 解 不 保证 是 全 局 最 优 解 。 标 度 下 降 法 的 收 伊 速度 也 未 必 是 很 快 


附录 B 牛顿 法 和 拟 牛 顿 法 


牛顿 法 (Newton method) 和 拟 牛 顿 法 (guasi Newton method) 也 是 
求解 无 约束 最 优化 问题 的 常用 方法 ， 有 路线 速度 快 的 优点 。 牛 顿 法 是 达 
代 算 法 ， 每 一 步 需 要 求解 目标 函数 的 海 完 矩阵 的 逆 和 矩阵 ， 计 算 比 较 复 
A 0 简化 了 
这 一 计算 过 程 。 





1. 牛顿 法 

考虑 无 约束 最 优化 问题 
min f(x) (B.1) 
xeR" 


其 中 x 为 目标 函数 的 极 小 点 。 
假设 f(x) 具 有 二 阶 连续 偏 导 数 ， 奉 第 k 次 迭代 值 为 x*， 则 可 将 f(x) 在 
xu 附近 进行 二 阶 泰 勒 展开 : 


f(x)= f(x )+ gr (x—x )+— -xx THO" )(x—x'")) (B.2) 


这 里 ，g, 一 g(x*) 二 Vf(x%) 是 f(x) 的 梯度 向 量 在 点 x% 的 值 ，H(x%) 是 f(x) 的 海 
赛 矩 阵 (Hesse matrix) 


i 可 | (B.3) 


Ox.Ox 





在 点 x* 的 值 。 函数 f(x) 有 极 值 的 必要 条 条 件 是 在 极 值 点 处 一 阶 寻 数 为 0， 即 
梯度 向 量 为 0。 特 别 是 当 H(x") 是 正定 矩阵 时 ， 函 数 f(x) 的 极 值 为 极 小 


值 ; 
牛顿 法 利用 极 小 点 的 必要 条 件 
Vf (x)=0 (B.4) 
每 次 达 代 中 从 点 x® 开 始 ， 求 目标 函数 的 极 小 点 ， 作 为 第 k+1 次 迭代 值 
x*“?。 具 体 地 ， 假 设 x*? 满 足 : 
Vf(x™m)=0 (B.5) 
由 式 (B.2) 有 





Vf/(x)=g: +H,(x—x"’) (B.0) 
其 中 H = 一 H(x%)。 这 样 ， 式 (B.5) 成 为 


和 H, (xd —_xt))=0 (B.7) 
因此 ， 
Xe(k+D = x(®) Es Hi'g, (B.8) 
或 者 
人 (B.9) 
其 中 ， 
Hp =—g (B.10) 


用 式 〈B.8) 作为 达 代 公式 的 算法 就 是 牛顿 法 。 
算法 B.1 (牛顿 法 ) 
输入 : 目标 函数 f(x)， 梯 度 g(x) 二 Vf(x)， 海 赛 矩 阵 H(x)， 精 度 要 求 € 


输出 :f(x) 的 极 小 点 x。 

(1) 取 初 始点 x%， 置 k 二 0 

(2) 计算 g 二 g(x") 

(3) 若 |lgj|<E， 则 停止 计算 ， 得 近似 解 x* 二 x% 

(4) 计算 H 二 H(x%)， 并 求 p. 

Hp: = 一 8 

(5) 置 xeo 一 xo+p， 

(6) 置 k=k+1， 转 (2) 。 

步骤 (4) 求 p，P: =-He 8g， 要 求 Hr ， 计 算 比 较 复杂 ， 所 以 有 
其 他 改进 的 方法 。 


2. 拟 牛 顿 法 的 思路 


在 牛顿 法 的 迭代 中 ， 需 要 计算 海 赛 矩阵 的 逆 垂 阵 H,， 这 一 计算 比较 
复杂 ， 考 虑 用 一 个 n 阶 矩阵 G 二 G(x) 来 近似 代替 He = 及 (xX”)。 这 就 
是 拟 牛 顿 法 的 基本 想法 。 

先 看 牛顿 法 迭代 中 海 赛 矩 阵 生 满足 的 条 件 。 首 先 ，H 满 足以 下 关 
系 。 在 式 (B.6) 中 取 x 二 x*?， 即 得 

—g, = a (x — Xt)) (B.11) 


记 y 王 gg，Gk 一 xx， 则 
y= Ho (B.12) 
或 
Hi-'y, =0, (B.13) 
式 (B.12) 或 式 (B.13) 称 为 拟 牛顿 条 件 。 
如 果 了 是 正定 的 〈 五 s 也 是 正定 的 ) ， 那 么 可 以 保证 牛顿 法 搜索 方 
癌 p 是 下 降 方向 。 这 是 因为 搜索 方 回 是 p 三 -4g ， 由 式 〈B.8) 有 





X= Ap =» = AH g, (B.14) 
所 以 f(x) 在 x* 的 泰勒 展开 式 (B.2)〉 可 以 近似 写成 : 
i (B.15) 


因 吾 正定 ， 故 有 8 Hr Sr > 0。 当 4 为 一 个 充分 小 的 正 数 时 ， 总 有 f(x) 
<f(x*)， 也 就 是 说 p. 是 下 降 方 同 。 
| 
拟 牛 顿 法 将 G 作为 Hk 的 近似 ， 要 求 和 矩阵 G 满足 同样 的 条 件 。 首 
先 ， 每 次 迭代 算 阵 G 是 正定 的 。 同 时 ，G 满足 下 面 的 拟 牛顿 条 件 : 
Gi = (B.16) 
按照 拟 牛 顿 条 件 选择 G 作为 鼠 的 近似 或 选择 B 作为 H 的 近似 的 算 
法 称 为 拟 牛 顿 法 。 
按照 拟 牛 顿 条 件 ， 在 每 次 迭代 中 可 以 选择 更 新 矩阵 G: 
G,, =G, +AG, (B.17) 
这 种 选择 有 一 定 的 灵活 性 ， 因 此 有 多 种 具体 实现 方法 。 下 面 介绍 
Broyden 类 拟 牛 顿 法 。 
3. DFP (Davidon-Fletcher-Powell) 算法 (DFP algorithm) 


DFP 算 法 选择 G,, 的 方法 是 ， 假 设 每 一 步 达 代 中 矩阵 G,, 是 由 G, 加 上 
两 个 附加 项 构成 的 ， 即 








Gs=G, +P+0, (B.18) 
其 中 P ，Q 是 待定 矩阵 。 这 时 ， 
Ga = GP + Hy + Oy (B.19) 


为 使 G,, 满 足 拟 牛 顿 条 件 ， 可 使 P. 和 Q, 满 足 : 


Py,=0, (B.20) 





QV: = -Gy (B.21) 
事实 上 ， 不 难 找 出 这 样 的 P 和 Q,， 例 如 取 
6.0, 
一 B.22 
5 有 
OQ, =— G 4 Vr Oh (B.23) 
Ve Ors 


这 样 就 可 得 到 窍 阵 G 的 迭代 公式 : 
0, Oy Gy yx GO 





号 B.24 
大 十 ] 开 区 Oy, JITG， y, ( ) 
称 为 DFP 算 法 。 
可 以 证 明 ， 如 果 初 始 矩 阵 G 是 正定 的 ， 则 夫 代 过 程 中 的 每 个 矩阵 G 
都 是 正定 的 。 
DFP 算 法 如 下 : 


算法 B.2 (‘DFP 算法) 
输入 : 目标 函数 f(x)， 梯 度 g(x) 二 VYf(x)， 精 度 要 求 €; 
输出 : f(x) 的 极 小 点 x'。 
(1) 选 定 初始 点 xm， 取 G 为 正定 对 称 和 矩阵 ， 置 k=0 
(2) 计算 g 二 g(x”)。 攻 |g 上 |< 台 ， 则 停止 计算 ， 得 近似 解 x' 二 x%; 
则 转 (3) 
(3) 置 p 二 -Gg 
(4) 一 维 搜索 : 求 4 使 得 
站 + hpi)= min f(x 
(5) 置 x*? 二 x%+Ap, 
(6) 计算 g .三 g(xe， 大 lg <EG， 则 停止 计算 ， 得 近似 解 x 王 


x ; 否则 ， 按 式 〈B.23) 算出 G_ 
(7) 置 k 一 k+1， 转 (3) 。 


臣 


(大) 


+ Ap.) 


4. BFGS (Broyden-Fletcher-Goldfarb-Shanno) 算法 (BFGS 
algorithm ) 


BFGS 算 法 是 最 流行 的 拟 牛 顿 算法 。 
可 以 考虑 用 G, 逼 近海 赛 矩阵 的 逆 和 矩阵 下 ， 也 可 以 考 夸 用 B, 逼 近海 赛 


阵 H 
这 时 ， 相 应 的 拟 牛顿 条 件 是 





BOk = (B.25) 
可 以 用 同样 的 方法 得 到 男 一 迭代 公式 。 肯 先 令 
B=B+h + (B.20) 
有 0O =B0,+Po, +0.0, (B.27) 
考虑 使 P. 和 Q 满 足 : 
Po = (B.28) 
CO ==—B,0, (B.29) 
找 出 适合 条 件 的 P 和 Q ， 得 到 BFGS 算 法 矩阵 B 的 迭代 公式 : 
B=B, + 3 | (B.30) 
入 和 “人 上 俱 
可 以 证 明 ， 如 果 初 始 窍 阵 B, 是 正定 的 ， 则 迭代 过 程 中 的 每 个 矩阵 B， 
都 是 正定 的 。 
下 面 写 出 BFGS 拟 牛顿 算法 。 


算法 B.3 (BFGS 算 法 ) 

输入 : 目标 函数 f(x)，g(x) 二 VYf(x)， 精 度 要 求 E€; 

输出 : f(x) 的 极 小 点 x'。 

(1) 选 定 初始 点 x%， 取 B 为 正定 对 称 和 矩阵 ， 置 k=0 

(2) 计算 g 二 g(x")。 若 ||gj|< 台 ， 则 停止 计算 ， 得 近似 解 x' 二 x%*， 否 
则 转 (3) 

(3) 由 B p 一-g 求 出 pP， 

(4) 一 维 搜索 : 求 4 使 得 


f(x + Pi)=min f(x '+Ap,) 


(5) 置 xz 一 x+4Dp， 

(6) 计算 g, 二 g(x*”)， 夺 ||lg,, 必 名 ， 则 停止 计算 ， 得 近似 解 x 二 
x*” ;否则 ， 按 式 (B.30) 算出 B,， 

(7) 置 k 二 k+1， 转 (3) 。 


5. Broyden 类 算法 (Broyden’s algorithm ) 


我 们 可 以 从 BFGS 算 法 秆 阵 B 的 迭代 公式 (B.30) 得 到 BFGS 算 法 天 
于 G 的 迭代 公式 。 事实 上 ， 若 记 Gk = Bk ， Gen = Be， 那么 对 式 
(B.30) 两 次 应 用 ShermanMorrisn 公 式 2 即 得 
TAN 
G,= | 天- | | (B.31) 
0 Bb O, OL ] 芭 
称 为 BFGS 算 法 关于 G, 的 迭代 公式 。 
由 DFP 算 法 G 的 迭代 公式 (B.23) 得 到 的 G, 记 作 G?， 由 BFGS 算 法 
G 的 和 迭代 公式 〈B.31) 得 到 的 G 记 作 Ges， 它们 都 满足 方程 拟 牛 顿 条 件 
式 ， 所 以 它们 的 线性 组 合 
GG FIG (B.32) 
也 满足 拟 牛 顿 条 件 式 ， 而 且 是 正定 的 。 其 中 0<a<1。 这 样 就 得 到 了 一 
拟 牛 顿 法 ， 称 为 Broyden 类 算法 。 


注释 


上] Sherman-Morrison 公 式 : 假设 A 是 n 阶 可 逆 和 矩阵 ，uv 是 n 维 癌 量 ， 且 A+uv7I 也 是 可 逆 移 
阵 ， 则 






































- T -| 
i “A 


(A+uv')'= 4 - 
lI+v Au 





附录 C 拉 格 明日 对 侦 性 


在 约束 最 优化 问题 中 ， 常 常 利 用 拉 格 庆 日 对 侦 性 (Lagrange 
duality〉 将 原始 问题 转换 为 对 个 问题 ， 通 过 解 对 侦 问 题 而 得 到 原始 问题 
的 解 。 该 方法 应 用 在 许多 统计 学 习 方 法 中 ， 例如， 最 大 焕 模 型 与 支持 问 
量 机 。 这 里 简要 叙述 拉 格 朗 日 对 俩 性 的 主要 概念 和 结果 。 


1. 原始 问题 


假设 f(x)，c(x)，h(x) 是 定义 在 R" 上 的 连续 可 微 函 数 。 考 虑 约束 最 优 
化 问题 











min f(x) (C1) 

xeR”" 

St. c(x)<0, i=1,2,..…,k (C.2) 
h(x)=0, j=1,2,…,/ (C.3) 


称 此 约束 最 优化 问题 为 原始 最 优化 问题 或 原始 问题 。 
首先 ， 引 进 广义 拉 格 朗 日 函数 《〈generalized Lagrange function) 


Zr,Q,D)= f(x)+ > uc (十 yph (x) (C.4) 
这 里 ，x 二 (ox%,..ox jER，a，B 是 拉 格 朗 日 乘 子 ，az0。 考 虑 x 的 本 
0,(x) = ex Les py) (C3) 

这 里 ， 下 标 P 表 示 原 始 问题 。 


假设 给 定 茶 个 x。 如 果 x 违 反 原始 问题 的 约束 条 件 ， 即 存在 茶 个 i 使 
得 c(w)>0 或 者 存在 东 个 j 使 得 h(w)<z0， 那 么 就 有 





0,(x) = max f(x)+ mt { 立 ) 十 > DB (x) | = + (C.6) 
a, fa, =0 ra pa 


因为 若 某 个 i 使 约束 cCODJ>0， 则 可 令 a +oo， 知 某 个 j 使 hCOz0， 则 可 令 B 
使 Bh(x) -+oo， 而 将 其 余 各 a，B 均 取 为 0。 

相反 地 ， 如 果 X 满 足 约 束 条 件 式 〈C.2) 和 式 〈C.3) ， 则 由 式 
(C.5) 和 式 (C.4) 可 知 ，Q.(x) 二 f(x)。 因 此 ， 


B= 了 (x)，x 满 足 原始 问题 约束 
”” +o， 其 他 
所 以 如 果 考 虚 极 小 化 问题 

mm (x) = min max L(x,0,p) (C.8) 
它 是 与 原始 最 优化 问题 〈C.1) ~ 〈C.3) 等 价 的 ， 即 它们 有 相同 的 解 。 
~ min max L(x.a.p) ee l . a 
问题 x* “paw>0 称 为 广义 拉 格 天 日 函数 的 极 小 极 大 问题 。 这 样 
一 来 ， 束 把 原始 最 优化 问题 表示 为 广义 拉 格 天 日 函数 的 极 小 极 大 问题 。 
为 了 方便 ， 定义 原始 问题 的 最 优 值 

P =minO,(x) (C.9) 

称 为 原始 问题 的 值 。 


2. 对 偶 问 题 


人 人 








定义 
0, (0,P)= minL(x,a,p) (C.10) 
再 考虑 极 大 化 名 (2 肋 =mneece AD) ' 即 
max bp (CO) . max, minL(x,&,p) (G11) 


max minL(x.a.p) 
Pa=0 x 


问题 称 为 广义 拉 格 明日 函数 的 极 大 极 小 问题 。 
可 以 将 广义 拉 格 朗 日 函数 的 极 大 极 小 问题 表示 为 约束 最 优化 问题 : 
max 0,(a,p)= max minL(x,a,p) (C.12) 
St 0 = bk (G13) 
称 为 原始 问题 的 对 偶 问 题 。 定 义 对 侦 问 题 的 最 优 值 
= max Ob (0,p) (C.14) 


称 为 对 偶 问题 的 值 。 


3. 原始 问题 和 对 偶 问 题 的 关系 

下 面 讨论 原始 问题 和 对 偶 问 题 的 关系 。 

定理 C.1 若 原 始 问 题 和 对 个 问题 都 有 最 优 值 ， 则 

ad = max min L(x,a,P) = min max L(x,a,p) = (Gls) 


证 明 由 式 〈C.12) 和 式 〈C.5) ， 对 任意 的 a,B 和 x， 有 
O(a,P)=minL(x,o,P)E L(x,0,P) 三 max L(x,0,P)=0,(x) (C.16) 
F a,Pa,20 











RH 
O(c,D) 三 O(7) (C.17) 

由 于 原始 问题 和 对 偶 问 题 均 有 最 优 值 ， 所 以 ， 

max 0,(0,p) = min oO,(x) (C.18) 

a,p:a=0 x 
RH 

d = max minL(x,a,P) min max L(x,a,P)=p (C.19) 
Apaz0 /x fr Ca 0 


加 

推论 C.1 ” 设 x 和 a',B' 分 别 是 原始 问题 〈C.1) 一 〈C.3) 和 对 偶 问 题 
(C.12) 一 《C.13) 的 可 行 解 ， 并 且 d= 二 PP， 则 x 和 a',B' 分 别 是 原始 问题 
和 对 侦 问 题 的 最 优 解 。 

在 某 些 条 件 下 ， 原 始 问题 和 对 偶 问 题 的 最 优 值 相等 ，d = 已 。 这 时 
可 以 用 解 对 偶 问 题 蔡 代 解 原始 问题 。 下 面 以 定理 的 形式 叙述 有 关 的 重要 
结论 而 不 予 证 明 。 

定理 C.2 考虑 原始 问题 (C.1) 一 〈C.3) 和 对 偶 问 题 (C.12) 一 
(C.13) 。 假 设 函 数 f{(x) 和 c(x) 是 凸 函 数 ，h(x) 是 仿 冉 函数 ， 并 且 假 设 不 
等 式 约束 c(x) 是 严格 可 行 的 ， 即 存在 x， 对 所 有 i 有 c(x)<0， 则 存在 
x,a,B"”， 使 x 是 原始 问题 的 解 ，a',B* 是 对 个 问题 的 解 ， 并 且 

B= = (C.20) 

定理 C.3 ”对 原始 问题 (C.1) 一 〈C.3) 和 对 偶 问 题 (C.12) 一 
(C.13) ， 假 设 函 数 fCa 和 co 是 凸 函 数 ，hGC9O 是 仿 射 函数 ， 并 且 不 等 式 
约束 c(o) 是 严格 可 行 的 ， 则 x 和 a;B 分 别 是 原始 问题 和 对 偶 问 题 的 解 的 充 
分 必要 条 件 是 x',a',B 满 足下 面 的 Karush-Kuhn-Tucker(KKT) 条 件 : 








VE B=0 (21) 


V Hx 0 ,8 y=0 (C.22) 
VeL(x ,0 ,PB )=0 (C.23) 
eA(x)=0, i=L2"5k (C.24) 
S00 dl (C.25) 
au 0 1=12:" (C.26) 
Bl = = (C.27) 


特别 指出 ， 式 (C.24) 称 为 KKT 的 对 偶 互 补 条 件 。 由 此 条 件 可 知 : 
若 % >0， 则 c(x”) 二 0。 
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